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머 리 ■ 


병렬처리기는 콤퓨터설계의 전망목표이다. 기술의 끊임 없는 발전은 지금까지 
병렬처리기를 만들어 내는 커다란 추동력으로 되여 왔다. 주요한 응용들에서 성능을 
높이려는 요구도 역시 병렬처리기개발에서 중요한 역할을 놀았다. 그러나 효과적이 
며 확대가능한 병렬처리기를 만드는것은 지금까지 대단히 어려운 문제중의 하나로 
되여 왔다. 

대 규모(«>100개처 리 기)병 렬처 리기개 발은 많은 노력 과 연구에 의하여 실현되 리 라고 
보았으나 아직 완성되지 못하였다. 프로그람에서 필수적 인 병렬성을 찾는것은 어 려운것 
으로 되였고 이 병렬성이 발견되였을 때 그것은 포함된 처리기요소수에 비례하여 프로그 
람실행속도를 높이는데로 넘어 가지 못하였다. 이것은 특히 «이 100을 초과할 때 더욱 
명백하다. 효률적인 병렬처리기를 실현하는데서 하나의 중요한 문제는 계산모형이다. 이 
계산모형은 응용을 표현하는데 쓰이는 프로그람모형과 언어의 기초이다. 이 계산모형은 
단일처리기를 위하여 개발되였으며 단일처리기에 아주 적합하다. 트랜잭션들에 대한 순 
차적규정의 언어적표시는 잘 알려 져 있기때문에 그것들은 직렬계산 및 프로그람작성모 
형에로 쉽게 넘어 간다. 이 표시들을 병렬모형에로 다시 넘기려는 시도는 지금까지 대단 
히 비효률적 인것으로 되여 왔다. 

효률적인 병렬처리에 대한 리해를 안받침하는 세개의 기둥 즉 계산모형, 기초적인 교 
체기술，프로그람작성방식 이 있다. 

이 책은 이 세가지 문제에 대하여 유일하게 구체적으로 취급하고 있다. 성능에 대한 
척도는 계산의 기초모형을 리해하기 위한 정 량적기초이다. 이 책의 필자들은 하드웨어 
모형，호상접속망 그리고 하드웨어정교성에 대한 완전한 표상을 주는 직렬광대역망을 포 
괄적 으로 해 석하였 다. 그것 들의 범위 는 하드웨 어 ILP (명 령준위병 렬성)에서부터 NOW (워 
크스테 이 션망)에 의하여 도달된 병 렬성까지 포괄한다. 그 체 계의 관점은 현재 진행중인 
주요병 렬 처 리 기의 실현노력 을 평 가한데 기초하여 계 산모형，장치 그리 고 프로그람작성모 
형을 통합하는것이다. 

하드웨어와 쏘프트웨어의 결합에서 이 책은 대단히 가치가 있다. 응용에서 체계로 
그리 고 처 리기구성 에 로의 넘기기를 리해함으로써만 효률적 인 확대 가능한 체 계를 제 작하 
는데서 일정한 진보를 기 대할수 있다. 
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제 1 편. 확대가능성과 클라스터화 


이 편에서는 병 렬 및 분산형를퓨터체계의 확대 가능성과 프로그람가능성 에 대한 원 
리들을 서술한다. 

1장에서는 확대 가능한 콤퓨터 가동환경의 모형 화에 대하여 서술한다. 확대가능성의 
개 념은 세개의 직교차원 즉 자원，응용，기술에 의하여 정의된다. 그다음 3개의 추상기 
계 모형 PRAM , BSP 와 위 상병 렬모형，다섯개 의 물리 기계 모형 PVP , SMP , MPP , COW 와 
MPP 체 계 들의 특징 을 서 술한다. 또한 확대 가능성 에 대 한 설 계 원 리 들을 실 례 에 기 초하여 
서 술한다. 그 목적 은 기 술, 구조, 알고리 듬，언어，응용，사용되 는 망환경 에 무관계한 체 계 
를 설계 하기 위한것 이 다. 또한 균형설계， 여 유설계， 역호환성 에 대 한 기 본개 념들이 서 
술된 다. 

2장에서는 특히 확대가능한 병렬콤퓨터의 프로그람화에 대하여 서술한다. 여기서는 
프로쎄스와 과제，스레 드환경 에 대 한 기본개 념외 에 병 렬성 관리，프로쎄 스호상작용, 프로 
그람의 미 론， 알고리 듬적 형 식，쏘프트웨어 이식성 에서 의 모든 중요한 문제 들이 취 급된다. 

다음으로 병 렬 프로그람작성 모형 들을 소개 한다. 모형 의 세 부에 대 해 서 는 4편에 서 취 
급한다. 

• 병렬콤파일러모형 

• 자료병 렬 모형 

• 통보문넘 기 기 모형 

• 공유기 억 기 모형 

3장에서는 기본적 인 성능평가기준과 척도에 대하여 취급한다. 그 목적은 확대 가능한 
성 능에 대 하여 속성 들을 식 별 하기 위한것 이 다. 또한 병 렬 성 능평 가기 준에 대 하여 포괄적 
으로 소개한다. 다음으로 가격 대 성 능비 사이 의 균형 에 대 하여 상세하게 고찰한다. 그리 고 
순차프로그람실 행 이 식 별되 며 병 렬성 관리 에서 부가처 리 와 쏘프트웨 어호상작용이 량적 인 
방식으로 해석된다. 

또한 립도 ( granularity ), 리 용가능한 병 렬성，병 렬성능척도， Amdahl 의 법 칙， Gustafson 의 
법 칙 Sun 과 해의 법 칙, 여 러 가지 성 능동형모형 들이 성능평 가기 준결과들과 함께 정 량적으 
로 해석된다. 
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제 1 장. 확대가능한 콤퓨터가동환경과 모형 


이 장에서는 병 렬콤퓨터들과 클라스터콤퓨터의 기본모형을 서술한다. 확대가능한 콤 
퓨터 가동환경 의 작용원 리 들과 기 본설 계 문제 들이 서 술된 다. 확대 가능한 클라스터 콤퓨터 
체 계 들은 주요한 구성 방식특징 을 가지 고 모형화된 다. 확대 가능성 은 3개 의 직 교차원 즉 
자원, 응용, 기 술에 의하여 실현된다. 

1.3 에 서 는 추상물리 기 계 모형 들의 특징 을 서 술하며 1.4 에 서 는 다중콤퓨터 클라스터 화의 
기 본개 념 을 소개 한다. 대 칭 다중처 리 기 들，콤퓨터 클라스터 들，분산콤퓨터 체 계 들사이 의 차 
이 도 고찰한다. 1.5 에 서 는 확대 가능한 병 렬콤퓨터 의 설계 와 응용을 위한 기 본원리 들을 
고찰한다. 

bit , byte , 단어 와 같은 단위 들은 콤퓨터분야에서 널 리 사용하지 만 때때 로 혼돈된 표 
시와 모호한 의미를 가지고 잘못 쓰일 때가 있다. 이 문제를 해결하기 위하여 우리는 
이 책 전 반에 걸 쳐 사용된 몇 가지 표시 법 을 제 시한다. 특히 특자들은 시 간， byte , bit 의 
매개의 단위에 대한 간략표시를 혼돈하지 말아야 한다. 

시간의 기본단위는 요로 표시된다. 두개의 기본정보단위는 byte 와 bit 이 다. lbyte ( lB ) 는 
8 bit (8 b ) 이 다. byte 는 B 로， bit 는 b 로 쓴다. 다른 정 보단위 는 단어 ( word )(16 b 혹은 2 B ), 배 
단어 ( doubleword )(32 b 혹은 4 B ), 4배 단어 (64 b 또는 8 B ) 이다. 이것은 Intel , Motorola , 수자 
장비 에 사용되는 규칙 에 기초한것 이 다. 

한 단어 를 32 b 로 하는데 어 떤 초고속콤퓨터설 계 자들은 64 b 를 한 단어 로 고찰한다. 
자주 사용되 는 작업 부하단위 는 류점연산의 수이 며 flop 로 간단히 표시한다. 계 산속도의 
단위 는 초당 류점 연산의 수이 다 ( flop / s ). 정 보전송속도의 단위 는 초당 byte 수이 다 ( B / s ). 처 
리 기의 실행속도는 흔히 초당 백 만개 명 령 으로 ( MIPS ) 하는데 유럽 에서 사용되 는 Mi / s 표 
시와 같다. 


표시법과 약속 

우리는 표 1-1 에서 규정된 약속과 표시를 쓴다. 10진과 2진해석은 고수준단위들에서 
어느 정도 다르기때문에 독자들은 그런 차이들을 알아야 한다. 

실례 로 키 로 ( kilo ) 는 10 3 =1000 또는 2 1() =1024를 의미한다. 콤퓨터과학에서 K 는 보통 
1024를 의 미하며 다른 과학분야에 서 노는 1000을 표시한다. 일 반적 으로 2진해석 은 bit , 
byte , 단어와 같은 정보단위에 적용된다. 10진해석은 흔히 실행시간, 전력，무게, 작업부하 
계산 등에 쓰인다. 

복수에 관한 약속은 다음과 갈다. 단위는 전체 단어가 사용될 때 복수화되며 줄임표 
현이 쓰일 때에는 복수화되지 않는다. 실례로 2 KB , 2 kilobytes 또는 2 Kbytes 라고 말한다. 
이 것 들은 모두 2048 byte 를 의 미 한다. 그러 나 우리 는 2 KBs 또는 2 Kbyte 라고 쓰지 않는다. 
2 kb 는 완전히 다른것 즉 2048 bit 또는 256 byte (256 bytes ) 를 의 미한다. 

류사하게 2 Mflop / s 는 초당 2백 만류점 수연산을 실 행하는 속도를 의 미하는 표시 이 다. 
2 Mflops / s , 2 MFLOPS 또는 2 Mflops 를 쓰는것을 피해야 한다. 이 책에서 로그함수는 언제 
나 밑 수 2를 자진 다. 즉 다른것 이 규정 되 지 않는 한 log n 은 log2 «을 의 미 한다. 
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표 1-1 __ 수표시법과 약속 


접두사 

략 자 

의 미 

수 값 

Milli 

m 

천분의 i 

10— 3 

Micro 

1 丄 

백만분의 1 

i(r 6 

Nano 

n 

10억분의 1 

10一 9 

Pico 

P 

1조분의 1 

10' 12 

Femto 

f 

1(X)0 조분의 1 

10 15 

Atta 

a 

100경분의 1 

10- 18 

Kilo 

K (혹은 k) 

천 

10 3 혹은 2 10 

Mega 

M 

백만 

10 6 혹은 2 20 

Grga 

G 

10 억 

10 9 혹은 2 30 

Tera 

T 

조 

10 12 혹은 2 40 

Peta 

P 

1000조 

10 15 혹은 2 50 

Exa 

E 

100 경 

10 18 혹은 2秘 


1.1. 콤퓨터구성방식의 진화 

1940년부터 지 금까지 60년간 콤퓨터발전과정 을 다섯개 세대 로 나누어 고찰한다. 한 
세대가 약 10~15년이다. 확대가능한 콤퓨터에 대한 형식적정의를 아래에 주고 그다음 
미래의 병렬콤퓨터에 관한 구조를 서술한다. 

1.1.1. 콤퓨터의 세대 

콤퓨터기술은 지난 60년간 다섯개 세대에 걸쳐 발전하여 왔 다. 표 1-2 에서 기술，구 
조，쏘 프트웨 어，응용，대 표적 인 체 계 를 매 개 콤퓨터 세 대 에 따라 서 술한다. 매 개 세 대 는 
하드웨 어，쏘 프트웨 어 기 술，응용의 수준에 서 이 전 세 대 로부터 개 선되 여 왔 다. 

하드웨 어의 분야에서 첫번째 세 대는 진공관식계전기기 억을 사용하였으며 두번째 세 
대 는 개 별 3극소자, 자심 기 억 을 사용하였 다. 세 번째 세 대 는 소규모집 적 회 로 ( SSI ) 를 쓰기 
시작하였다. 네번째 세대는 초대규모집적회 로 ( VLSI ) 극소형처 리 기를 쓰기 시작하였으며 
다섯번째 세대는 극초대규모집적회로 ( ULSI ) 를 사용하였다. 실례로 1997년에 10 M 3극소자 
극소형 처 리 기 와 256 M 3극소자 DRAM (동적 자유호출기 억 )이 리 용되 였 다. 

쏘프트웨어분야에서 첫 세 대는 기계/아쌤블러언어들을 사용하였고 두번째 세 대는 고수 
준언어 ( HLL ) 즉 Algol (알골)과 Fortran (포트란) 같은것을 쓰기 시작하였다. 세번째 세대는 C 
언어 다중프로그람작성，시 분할조작체 계를 쓰기 시 작하였으며 네번째 세대는 병 렬벡 토르처 
리를 중점 으로 진행하였다. 다섯번째 세 대는 이 책 에서 취급된 확장가능하고 클라스터화된 
계산을 기 본으로 한다. 21세 기 에 콤퓨터의 다음세 대들은 보다 더 발전될것 이 다. 
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표 1-2 _ 50년동안의 콤퓨터세대 


세대주기 

기술과 구성방식 

쏘프트웨 어 와 

조작체 계 

대표적인 체계 

첫 번째 

1946-1956 

진공관과 계전기기억기， 

축적기에 기초한 명령모임을 

가진 단일비트 CPU 

기계/아셈블리 언어， 

부분루린이 없는 

프로그람 

ENIAC, IBM 701， 

Princeton IAS 

두번째 

1956-1967 

개별 3극소자, 핵심기억기， 

류동소수점축적기， I/O 통로 

콤파일러를 가전 

Algol, Fortran, 

묶음처리 OS 

IBM 7030, CDC 1604， 

Univac LARC 

세 번째 

1967-1978 

직접회로, 관흐름된 CPU, 
마이 크로프로 그람과 조종단 

C 언어， 

다중프로그람작성， 

시 간공유 OS 

POP-11 

IBM 360/370， 

CDC 6600 

네 번째 

1978-1989 

VLSI 극소형처 리 기，반도체기 
억기, 다중처리기, 벡토르초 
고속콤퓨터 

대칭다중처리, 

병렬를파일러， 

통보문넘기기서고 

IBM PC, 

VAX 9000, 

Cray X/MP 

다섯 번째 

1990- 현재 

ULSI 회로, 확대가능한 병렬 
를퓨터 , 워 크스테 이 션클라스 
터, Intranet Inetmet 

Java, 극소핵심부， 

다중스레 드화분산 OS， 

WWW 

IBM SP2, 

SGI Origin 2000, 

Digital TruCluser 


1.1.2. 확대가능한 콤퓨터구성방식 

현대 콤퓨터의 특징은 병 렬성 이 다. 단일처 리기안에서조차 여 러 가지 방법으로 병 렬 
성 이 개 척 되 여 왔다. 이것은 4장에서 자세하게 서 술한다. 최 근에 확대 가능성의 개 념은 
다시 강조되였는데 그것은 병렬성을 포함하고 있다. 확대가능성개념은 이 책에서 중심으 
로 된다. 아래에서 확대가능성의 간단한 정의를 준다. 

정 의 1.1 를퓨터 체 계 가 그것 의 하드웨 어 와 쏘프트웨 어 자원전체 로 이 루어 지 면서 높 
아 지 는 성 능과 기 능요구에 적 합하게 확대할수 있거 나(다시 말하면 자원을 증가한다.) 혹 
은 비 용을 감소시 키 기 위해 축소할수 있 다면(자원을 감소한다.) 콤퓨터 체 계는 확대 (축소) 
가능하다고 말한다. 

대부분 확대에 중점을 둔다고 해도 확대가능성이 커진다는것과는 동등하지 않다. 확 
대가능성 은 축소하는 가능성 을 동반한다. 확대 문제 는 한 처 러기체계 에서도 생 긴다. 특히 
체계가 확대가능하다는것은 다음과 같은 의미를 가지고 있다. 

• 기능성과 성능 확대된 체계는 보다 많은 기능성과 좋은 성능을 제공해야 한다. 
체 계의 전체 계산능력은 자원증가에 비 례하여 높아 져 야 한다. 체 계 자원이 «배 
증가될 때 계산능력은 n 배 높아 진다. 

• 비 용에 기초한 확대 확대를 위해서 지불되는 비 용은 적 합해 야한다. 경험적 으로 
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얻은 법칙에 의하면 «배로 확대하는데 n 또는 log «배보다 많지 않은 비용이 요 
구된 다. 

• 호환성 하드웨 어，체 계 쏘프트웨 어, 응용쏘프트웨 어 를 포함한 동일 한 요소들은 약 
간 변화시켜 쓸수 있어야 한다. 

사용자에 게 전혀 새 로운 조작체 계 를 주고 응용코드를 다시 개 발할것 을 기 대하는것 은 
적합하지 않다. 확대는 체계의 일부분만을 포함한다. 실례로 보다 많은 처리기를 첨가하 
거나 처리기를 다음세대로 갱신한다. 이것은 체계의 다른 나머지부분들과 호환되여야 한 
다. 즉 이미 있던 기억기, 디스크，호상접속주변련결은 여전히 쓸수 있어야 한다. 

틈퓨터피라미드 확대가능체계에 대한 주요목적은 적응성이 있고 비용효과가 적은 정 
보처 리도구를 마련하는데 있다. 그림 1-1 의 실례 에서처 럼 를퓨터들은 판매 량과 성 능, 비용 
에 따라 피 라미 드를 형 성한다. 피 라미 드의 아래 에 개 인용콤퓨터 ( PC ) 부류가 있는데 그것 들의 
년간 판매 량은 매우 높으며 성능은 제일 낮다. 

초고속콤퓨터부류는 제 일 우에 놓인다. 그것들의 판매 량은 굉장한 가격으로 하여 제 
일 낮다. 그러나 초고속콤퓨터는 많은 자원들을 하나의 단일체계로 집적하고 최첨단기술 
을 가지고 있으며 성능이 가장 높다. 

확대가능성개념은 모든 콤퓨터부류에 대하여 공통적인 확대가능구조를 가저야 한다. 
이것은 다음과 같은 여러가지 우점을 자진다. 



• 그것은 각이한 가격 대성능비 요구를 만족시 킨다. 실례 로 사용자는 낮은급체계 를 
구입할수 있 다. 그것 의 성 능상 요구가 증가될 때 원래 의 하드웨 어 와 쏘프트웨 어 
는 여전히 새 체 계 에서 쓸수 있도록 체 계를 확대할수 있다. 

• 높은급기 계 들은 비 용을 절 약하기 위해 성 능이 낮은 요소들을 쓸수 있 다. 실례 로 
PC 들은 낮은 원가，쉽 게 살수 있 는 요소들을 가지 고 있 다. 확대 가능한 구조를 가 
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지고 있는것으로 하여 초고속콤퓨터들은 원가를 낮추기 위해서 이러한 요소들을 
쓸수 있다. 펼수적요소들(처리기，기억소편, 디스크, I / O 조종기 등)을 쓰는것은 고 
성능체계개발의 하나의 추세로 되였다. 

• 높은급체계를 위 하여 개발된 첨 단기술은 결국 저성능체계의 성능을 개선하며 비 
용효과성을 높일수 있다. 

1.1.3. 체계구성방식의 수렴 

확대 가능한 병 렬콤퓨터들은 세 가지 구성 방식 에 로 수렴 하고 있으며 그것들은 그림 1- 
2에서 보는바와 같이 자원공유의 수준증가와 관련한 많은 공통성을 가진다. 

공유를 가지지 않는 구성방식은 호상 접속망으로 련결되는 여러개의 마디들로 구성 
된다. 마디는 보통 쉴구성방식에 따르며 여기서 하나의 전용으로 설계된(월이라고 부르 
는) 회 로장치 는 극소형 처 리 기 를 마디 의 나머 지 부분 즉 캐 쉬 , 국부기 억 기, 망대 면부회 로장 
치 ( NIC ), 디스크에 련결된다. 

디 스크공유구조는 디 스크모둘이 마디 들사이 에서 공유되 도록 마디밖으로 옮겨 진다는 
데서 공유구조와 다르다. 기 억 기공유구조에서는 지 어 주기억까지 공유된다. 

마크로구성방식과 마이크로구성방식 콤퓨터체계의 전체 구조를(실례로 그림 1-2) 마크 



1) 공유없는구성 방식 


C 캐 쉬 
D 디스크 
M 기억기 
NIC 망대면부회로 
P 처려기 



그림 1-2. 확대가능한 병렬콤퓨터에 대한 일반구성방식 
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로구성방식이 라고 부르며 처리기와 그것을 둘러 관 멜을 마이크로구성방식 이라고 부론다. 
멜구조의 우점 은 처 리 기 가 다음세 대로 갱 신되 거 나 다른 구성 방식으로 변경될 때 오직 쉴 
(혹은 마이크로구성방식)만이 변경될것을 요구한다는것이다. 

우의 모든 구조적개념은 실제병렬콤퓨터들을 간단화한것이다. 실례로 공유기억기, 공 
유디스크는 공유가 아닌 구조의 호상접속에 첨가될수 있다(그림 1-2 1) . 이것은 그림 1-2 
L , n ) 에서 보는것처럼 공유디스크 혹은 공유기 억을 가진 구조로 될수 있다. 자세한 설명 
은 뒤장들에서 취급한다. 


1.2. 확대가능성의 차원 

확대(축소)(체계자원을 증가시키거나 감소시키는)에는 여러가지 방법이 있다. 그것들 
은 확대(축소)가능성의 각이한 관점과 정의 에 로 귀 착된다[69, 513]. 앞으로 우리는 확대 화 
에 대하여 중심적으로 고찰한다. 

처 리 기는 CPU 를 가리키 는 말이 다. CPU 는 하나 또는 그이상의 명 령관흐름, 단，캐 
쉬 기타 다른것들을 포함한다. 처리기는 단일소편우에서 실현되거나 또는 단일다중소편 
모둘우에 설치된 다중소편들우에 서 실현될수 있으며 그렇 지 않으면 다중분리 소편들로써 
실현될수 있다. 마디 는 하나이상의 처 러기들，국부기 억기，다른 회 로장치들을 가진다. 간 
단히 우리 는 따로 규정하지 않는 한 그림 1-2 에 서 보여 준 모형 에서 의 마디 들을 단일 
처 리 기로 가정한다. 


1.2.1. 자원확대가능성 

자원확대가능성이란 기계크기(다시 말하면 처리기의 수)를 늘이고 보다 많은 기억(캐 
쉬，주기억기，디스크)을 장비하며 쏘프트웨어를 개선함으로써 보다 높은 성능을 얻는다 
는것을 말한다. 

크기확대가능성 를퓨터체계를 확대하는 가장 명백한 방도는 기계크기 다시 말하면 
처리기의 수를 늘이는것이다. 크기확대가능성은 체계가 적합하게 쓸수 있는 처리기의 최 
대수로 평 가된다. 모든 병 렬콤퓨터들이 동일하게 크기확대 가능한것은 아니 다. 실례 로 1997 
년 현재 대 칭 다중처 리 기 ( SMP ) 체계 는 약 64개 처 리 기까지 확대 할수 있고 한편 IBM SP 2 은 
512개 처리기까지 확대할수 있었다. 

현재 병 렬를퓨터 에서 크기를 확대할 때 처 리 기를 첨 가하는것은 간단하지 않을수 있다. 
통신부분체 계 들은 호상접 속, 대 면부，통신쏘프트웨어 를 포함하며 이 것 들은 역 시 개 선되 여 
야 한다. 보다 큰 하드웨 어병 렬성을 어떻게 실현하는가 다시 말하여 확대체계 에 대 한 계획 
을 어떻게 세우겠는가 하는 문제가 제기된다. 병렬체계의 확대가능성을 제약하는 두가지 주 
요인자로서 프로그람작성과 통신이 있다. 이 문제는 뒤 장들에서 자세 히 취급한다. 현존상업 
적인 연구체계들에서 어떻게 그 문제들을 효과적으로 해결하는가를 배우게 될것이다. 

자원의 확대 처리기를 첨부하는것은 체계를 확대하는 가장 명곽한 방도이기는 하지 
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만 이것이 유일한 방도는 아니다. 같은 수의 처리기를 가지고 있지만 더 많은 기억, 더 
큰 소편외장패쉬, 더 큰 디스크와 기타 여러가지를 장비하여 쓴다. 

실례 1.1. IBM 와 *2 에서 기 억요구 

Maui 고성 능계 산쎈터 ( MHPCC ) 가 400마디 SP 2 체 계 를 갱 신하기로 하였는데 더 많은 마 
디를 첨부하는 대신에 디스크용량과 기억은 증가하기로 하였다. 확대된 기억용량은 표 
1-3 에서 보여 주었다. 이것들은 실례 로 그롭 1에 8개의 Wide 형마디들이 있고 매개는 
1 GB 의 주기억, 4.5 GB 의 국부디스크를 가진다는것을 보여 준다. 여기서 1000 MB 는 주 
기억과 보조기억사이의 교체를 위한 패지화공간으로 쓰이며 또 다른 2000 MB 는 국부 
작업공간 ( scrstch ) 으로 사용된다. 


표 1-3 _ MHPCC 에서 旧 M SP 2 의 기억기와 디스크용량 


그룹 

마디 형 래 

마디 수 

기억기 

(MB) 

디스크 

(GB) 

페지화 

(MB) 

국부작업공간 

(MB) 

1 

Wide 

8 

1024 

4.5 

1000 

2000 

2 

Wide 

56 

256 

4.5 

500 

2000 

3 

Wide 

16 

256 

2.0 

500 

1000 

4 

Thin 

160 

128 

2.0 

256 

1000 

5 

Thin 

160 

64 

1.0 

180 

250 


기억기공간을 확대하는것은 많은 기억기소편을 사는것보다 더 리롭다. 

체 계는 확장된 기 억을 출수 있게 기 억기 용량을 설계하여 야 한다. 실제적 인 체 계는 
언제 나 최대기 억용량의 웃한계를 가지고 있다. 실례로 IBM SP 2 은 마디당 최대한 2 GB 의 
기억을 쓸수 있으며 Cray T 3 D 는 오직 64 MB 만을 쓸수 있다. 이 용량들은 주로 비용과 
기 술의 관계 에 의하여 제 한된 다. 


쏘프트웨 어확대 가능성 확대 가능콤퓨터체 계의 쏘프트웨어는 아래 에서 보여 주는것 과 
같은 방도에 의하여 개 선될 수 있 다. 

조작체계의 보다 더 새 로운 판본, 그것은 다중스레드처 리와 갈은 더 많은 기능을 가 
지며 많은 사용자처리와 주소화공간, 더 효과적 인 핵심부기능, 기 타 등을 지원한다. 

• 보다 효과적 인 최 량화기능을 가진 좋은 콤파일러 

• 보다 효과적 인 수학적 및 공학적서고들 

• 보다 효과적 이고 쓰기 쉬운 응용쏘프트웨어 

• 리 용자에 게 편 리 한 프로그람작성 환경 
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1 • 2. 2. 응용확대가능성 

확대가능한 병렬콤퓨터의 능력을 충분히 리용하기 위 하여서는 응용프로그람들이 확 
대가능하여야 한다. 이것은 갈은 프로그람은 확대된 체계에 따라서 더 좋은 성능으로 실 
행되 여 야 한다는것을 의미한다. 두가지로 구분하면 기계크기의 확대 가능성과 문제크 
기의 확대가능성이다. 

기계크기의 확대가능성 이것은 처러기가 보충될 때 성능이 얼마나 더 개선되는가를 
나타낸다. 실례 로 처 리기콤퓨터체계 가 자료기지 봉사기로 사용된다고 하자. 그것은 인구자 
료기지를 가지고 있으며 보통 100명의 과학자들이 질문을 제기하면 초당 1000개 트랜잭션을 
처 러 하는 성 능 ( TPS ) 을 가지 고 있 다. 

처리기의 수를 배로 하여 2«으로 만들면 어느 정도의 속도로 개선될수 있겠는가? 

체계의 속도를 2000 TPS 로 증가시키면 체계는 기계크기를 초월하여 확대된다고 말할 
수 있다. 증가되는 자원이란 흔히 처리기들이지만 그것들은 역시 기억공간 또는 I / O 가능 
성 이 라는것을 알아야 한다. 

문제크기의 확대가능성 이것은 체계가 보다 큰 자료크기，작업부하를 가지는 문제 
를 얼마나 잘 조종하는가를 가리 킨다. 자료기 지봉사기 의 실례 를 다시 고찰하자. 봉사기 
가 중국의 인구자료기지를 가지고 있다고 하자. 봉사기는 얼마나 잘 동작하겠는가? 자 
료기지의 크기는 5배로 증가되였으며 사용자수가 200으로 증가되였다면 무엇이 일어 
날것인가? 

응용의 확대가능성을 연구할 때 다음의 세가지 문제점이 제기된다. 

• 많은 실계적 인 병 렬응용들은 기 계 크기 와 문제 크기 에 따라서 한계 를 설 정하였 다. 
실 례 로 병 렬 람지 기 신호처 리 프로그람은 최 대 로 256개 의 처 리 기 를 쓰며 최 대 로 
100개 의 탐지 기통로를 조종한다. 이 한계 는 단순히 기 계 자원을 증가시키 는것 에 
의하여 초과될수 없다. 프로그람은 보다 많은 처 리기와 탐지기통로를 조종할수 
있게 변경시켜야 한다. 

• 응용은 규정된 기계 와 결부시켜 고찰해 야 한다. 이 응용/기 계쌍을 때때 로 하나 
의 체계로 본다. 

• 응용의 확대 가능성 은 반드시 기 계크기 와 문제크기 에 의 존하지 않는다. 그것 은 
역시 기억기용량， I / O 능력, 기계의 통신능력에 의존한다. 이 모든 인자들은 확대 
가능성 에 밀 접하게 영 향을 준다. 우리 는 이 문제 들을 3장에 서 취 급할것 이 다. 

1.2.3. 기술확대가능성 

기술의 확대가능성은 기술적인 변화에 대처할수 있는 확대가능한 체계에 적응된다. 

그것은 세 가지 부류 즉 세대확대 가능성，공간확대 가능성，이종확대 가능성 으로 갈라 
질수 있다. 
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세대(시간)확대가능성 체계는 빠른 처리기, 빠른 기억기，더 새로운 조작체계판본，보 
다 위력한 를파일러 등과 같은 다음세대구성요소를 리용하여 확대할수 있다. 또한 계산 
능력은 체계가 다음세대로 넘어 갈 때 증가되여야 한다. 게다가 체계의 나머지부분은 될 
수록 적게 변경시켜 쓸수 있어야 한다. 사용자가 처리기나 조작체계를 한층 높이 갱신할 
때 전체 체계를 다시 장비하게 하는것은 적합치 않다. 근사적으로 콤퓨터체계에서 가장 
빨리 발전하는 요소는 처 리기인데 그것은 18개 월 또는 2년마다 그것의 성능이 두배 로 증 
가된다. 가장 뜨게 발전하는것 은 프로그람작성언어 들 (Fortran 77은 여 전히 널 리 쓰인다.) 
인데 아주 능력이 높은 콤파일러라도 수년간마다 개발된다. 성능에 대한 관심이 있는 사 
용자는 콤퓨터체계의 처리기는 2년마다 갱신하고 나머지요소들은 훨씬 더 낮은 비률로 
갱 신되 기 를 원할수 있다. 유감이 지 만 이 것은 과거 의 병 렬콤퓨터 들에 서는 생 각할수 없었 
고 그때 매 개 세 대는 사용자응용의 재 개 발과 체 계쏘프트웨어 에 대 한 새 로운 투자를 요 
구하였다. 


실 례 1.2. IBM 개 인 용를퓨터 의 세 대확대 가능성 

가장 좋은 세대의 확대가능한 콤퓨터는 아마도 IBM PC 일것이다. 많은 PC 사용자들 
은 자주 처 러기, RAM 용량, 다매 체확장과 같은 체 계요소들이 자주 갱 신되 여 계산능력은 
증가되 나 체 계의 기 타부분은 그대 로 리용할수 있다는것 을 알게 되 였다. 나머지체계는 현 
시장치, 하드구동기，인쇄기 등을 포함한다. 

특히 중요한것은 그들이 현재체계와 응용프로그람 ( DOS , Windows , 자료기지，스프레 
드위 드, 문서처 러 쏘프트웨어 , 기 타 등)의 2진코드는 변화시키 지 않고 갱 신된 체 계우에 서 
더 빨리 실 행할수 있 다는것 을 알수 있 다. 왜 냐하면 PC 체 계 (처 리 기 로부터 시 작하여 모판, 
I / O 카드，쏘프트웨 어 에 이 르기 까지 ) 는 세 대 확대 가능하도록 설 계 되 였 기 때 문이 다. 

공간확대 가능성 이것은 체계의 능력을 한개 함, 방，건물에 있는 다중처 러기 로부터 
여러 건물과 지리적범위에로 규모를 확대하는 체계의 능력을 가리킨다. 이런 견지에서 
SMP 와 MPP 는 제 한된 공간확대 가능성 을 가지 며 한편 인 터네 트는 우월 한 공간확대 가능성 
을 가진다. 

이종확대가능성 이 성질은 체계가 각이한 설계자들 혹은 판매자들이 공급하는 하드 
웨어와 쏘프트웨어 요소들을 집 적하여 얼마나 잘 확대할수 있는가를 가러 킨다. 이것은 표 
준이 고 열린 구조와 대 면부를 가지 는 요소들을 사용할것 을 요구한다. 쏘프트웨어 부분에 
서 이것을 이식성이라고 부론다. 

실례 1.3. 확대 가능한 병 렬콤퓨터 에서 쏘프트웨어 이식성 

IBM 병 렬조작환경 ( POE ) 은 RS 6000체 계의 임 의의 크기 이 상으로 확대 할수 있다. POE 
를 쓰면 병 렬프로그람 RS 6000 마디들로 된 망에서 변경없 이 실행될수 있는데 여 기서 매 
마디는 낮은급 PowerPC 워크스테 이 션 혹은 높은급의 SP 2 wide 마디 이 다. 

이 마디들은 임의의 통용되는 호상접속에 의해서 련결될수 있는데 그것은 느린 
Ethernet 로부터 SP 2 의 고성능교환 ( HPS ) 에 이르기까지 포함한다. 이 마디들은 지형학적으 
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로 떨어 져 있는 위치에 있을수 있는데 하나는 남부캘리포니아에 있고 나머지는 Maui 고 
성능계산쎈터에 있다. 

또 하나의 실례 는 병 렬 가상기계 ( PVM ) 인데 그것은 역 시 이 종확대 가능하다. 그것 은 
병 렬 프로그람이 서 로 다른 판매자로부터 구입한 마디 들로 이 루어 진 망우에 서 실 행 될수 
있 다. 


1.3. 병렬콤퓨터모형 


병 렬기 계 모형 은 (프로 그람작성 모형，타이 프 구조，개 념 모형，러 상모형 으로 도 알려 져 
있 다.) 프로 그람작성 자의 견지 에 서 보면 하나의 추상병 렬 콤퓨터 이 며 그것 은 순차계 산을 
수행 하는 von Neumann 모형 파 류사하다. Purdue Reort [556] 에 의 하면 이 러한 모형은 병 렬 
계산에서 기본인 병렬콤퓨터의 능력을 특징 지어야 한다. 그러나 특수화된 병렬콤퓨터들 
은 그것들을 제공한다고 볼수 있다. 

추상화는 처리기의 수, 처리기사이 통신구조와 같은 구조적정보를 포함하지 말아야 
하지만 암시적으로는 병렬계산의 상대적비용을 구할수 있어야 한다. 이러한 모형은 실현 
세부에 대하여서는 명백하지 않아도 성능에 대하여서는 충분히 정확해 야 한다. 이러한 추 
상모형 은 콤퓨터구조설 계 가들，쏘프트웨 어개 발자들, 프로그람작성 자들, 알고리 듬설 계 자들 
에 게 많은 러득을 준다. 매 병 렬 콤퓨터 는 자기 의 구조를 밀 접하게 반영하는 순수한 모 
형을 가진다. 

1 . 3. 1 . 의 미 속 성 


병렬기계모형의 특징은 다섯개의 의미속성과 여러개의 성능속성에 의하여 묘사될수 
있 다. 이 속성 들은 리 론적 인 기 계모형 을 보면 러 해 될 수 있 다. 크기 n 의 병 렬 자유호출기 계 
( PRAM ) 는 그림 1-3 에서 보는것처럼 «개의 처리기로 구성되며 모두 하나의 공유기들에 
접 근한다. 

PRAM 우에서 병렬프로그람은 n 개의 처리기로 이루어 지며 i •번째 프로쎄스는 2•번째 처 
리 기안에서 실행되 고 명 령렬로 구성된다. 매 개 처 리 기는 매 기 본시 간단계 ( cycle 이 라고 부른 
다.)에서 하나의 명 령을 수행한다. 전형적 인 순차형를퓨터 에서 볼수 있는바와 같이 명 령은 
자료전송, 산수/론리, 조종흐름, FO 명령들을 포함한다. 



• MIMD 

• Fine grain 



• 공용변수 


그림 1-3. PRAM (병 렬 자유호출기 계 )모형 


동형성 이 속성은 병렬콤퓨터의 처리기들이 병렬프로그람을 실행할 때 얼마나 류사 
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하게 동작하는가 하는 특징 을 의 미한다. 크기 가 1인 PRAM 은 일 반적 인 자유호출기계 [10] 
로 되며 여기서 프로그람은 단일한 명령흐름을 실행하고 단일한 자료흐름에 접근한다. 
Flynn 의 분류 [244] 에 따르면 이 러한 기계는 단일명령(흐름), 단일자료(흐름) (SI 況 )) 기계 이며 
그것은 보통의 순차형콤퓨터를 모형화한다. 

하나이상의 처리기가 있을 때 PRAM 은 다중자료흐름에 접근하여 다중명령흐름을 
실 행 한다. 따라서 PRAM 은 다중명 령 (흐름), 다중자료(흐름) (MIMD) 기 계 이 다. 그러 나 매 
개 주기에서 모든 처리기들이 같은 명령을 수행해야 한다면 오직 한명령흐름이 있는 
단일 명 령 (흐름), 다중자료(흐름) (SIMD) 기 계 로 된 다. 

MIMD 의 특수한 경우는 단일프로그람다중자료 (SDMD) 계산이몌 363] 모든 처리기는 
같은 프로그람을 실 행하며 그 프로그람은 프로쎄스색 인에 따르는 파라메터 를 가진다. 
SIMD 와 SPMD 와의 차이는 SPMD 계산에서 다른 명령들이 같은 주기에서 실행될수 있다 


동기성 이 속성은 처 리기들이 얼마나 밀접하게 동기화되는가를 말해 준다. PRAM 모 
형의 중심적인 특징은 동기적이라는것이다. 매 주기에서 n 개 명령에 의한 모든 기억기 
읽 기 동작은 어 떤 처 리 기 가 기 억 기 쓰기 혹은 분기 하기 전 에 수행 되 여 야 한다. 

PRAM 은 명령준위에서 동기적이라고 말할수 있다. 이러한 강한 동기성은 SIMD 기계 
를 제 외 하고 대 부분 실제병 렬 콤퓨터 들에는 없 다. 오히 려 실제 적 인 MIMD 병 렬 콤퓨터 는 
비동기적 이 다. 매 개 프로쎄 스는 그자신의 단계 로 실행 되 며 다른 프로쎄 스의 속도와 무관 
계하다. 한 프로쎄 스가 다른 프로쎄스로 하여금 정 확한 의미를 가지도록 기 다러게 한다 
면 보충적 인 동기화조작이 수행되여 야 한다. 

이 두 극단사이에는 또 다른 동시도식이 있다. 흥미 있는것은 Valiant 가 자기의 다량 
동기병 렬 (BSP) 모형 [623] 을 제 안한것 이 다. 매 개 명 령 에서의 동기 화대 신에 매 초걸음들에서 
만 서로 동기화하는데 여기서 하나의 초걸음은 하나의 대량적인 명령으로서 고찰된다. 
한 초걸 음안에 서 프로쎄 스는 그외 명 령 들을 비 동기 적 으로 실 행한다. 또한 초걸 음에 서 모 
든 처리기로부터 수행되는 기억읽기조작은 어떤 처리기가 기억쓰기조작을 하기전에 수 
행되여야 한다. 

또 하나의 성긴 동기 화도식 [253, 254] 은 BSP 모형과 대 단히 류사하다. 병 렬 프로그람은 
단계의 렬로서 나누어 진다. 한 단계는 단일배정명 령 문만큼 간단하거 나 임의의 명 령 문의 
렬만큼 복잡하다. 다중처 리 기는 매개 구안에서 비동기적 으로 실행된다. 그것들은 매개 구 
의 끝에서 동기화된다. 

호상작용기구 이 속성은 병렬처리기가 서로 동작에 영향을 주기 위해 어떻게 호상 
작용하는가를 보여 준다. PRAM 모형 에 서 프로쎄 스는 공유변수(또는 공유기억 기 )를 통 
하여 호상작용한다. 또 하나의 중요한 호상작용기구는 통보교환이다. 이 도식에서 프로 
쎄 스들은 공유변수를 가지 지 않는다(바꾸어 말하면 한 프로쎄 스에 의하여 접 근할수 있는 
모든 변수들은 다른 프로쎄스에서 볼수 없다.). 

대신에 프로쎄스들은 통보를 보내고 받는것에 의하여 호상작용한다. 공유변수를 통하 
여 호상작용하는 비동기 MIMD 기 계 를 자주 다중처 리 기 라고 부른다. 통보교환을 가지 는 
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MIMD 기계를 주로 다중콤퓨터 라고 부론다. 이 호상작용기구는 여 러 가지 방법 에 따라 결 
합될수 있다. 다중처리기와 다중콤퓨터는 5.4.1 과 8丄1에서 더 자세히 고찰한다. 

주소공간 프로쎄스의 주소공간은 프로쎄스에 의하여 접근할수 있는 기억위치의 모임 
이 다. 여 러 기 계(실례 로 PRAM 모형)들에서 모든 기 억기위치는 프로그람작성 자의 견지 에서 
보면 단일한 주소공간에 상주한다. 

모든 병렬콤퓨터들은 단일주소공간을 가지지 않는다. 실례로 하나의 다중콤퓨터에서 
매 처리기는 그자신의 개별적인 주소공간을 가진다. 이러한 기계를 다중주소 공간을 가진 
다고 말한다. 이 로부터 다중를퓨터 의 처 러기틀은 공유변수들을 통하는것 이 아니 라 통보 
교환에 의하여 통신한다. 

리론적인 PRAM 모형의 하나의 중요한 특징은 모든 처리기가 모든 기억위치에 대하 
여 동일한 접근시 간을 가진다는것 이 다. 이 러한 기계는 동일주기 억기접근 (UMA) 을 가진다 
고 말한다.다른 한편 각이한 프로쎄 스들이 단어 위 치 에 접 근하는데 각이한 량의 시 간이 
걸리면 기계는 비동일기억기접근 (NUMA) 을 가진다고 말한다. 이 기억모형은 5장과 8장에 
서 구체적으로 학습할것이다. 

실례 로 분산기 억기 공유 (DSM) 다중처 리 기 에서 론러적 인 공유기억기 는 물리 적 으로 
모든 처리기들에 분산되는메 이것을 국부기억기라고 부론다. 한 처리기의 국부기억기 
는 다른것의 원격기억기일수 있다. 어떤 를퓨터들은 계층적으로 조직화된 기억기를 
가진다. 국부기 억기외 에 처 리 기들은 대 역적 인 기 억 기 에 접 근한다. 하나의 국부단어 에 
접근하는 시간은 보통 원격 또는 대역기억기에 접근하는것보다 적으며 때때로 1~2차 
수이 다. 따라서 NUMA 기 계 들에 서 자료와 프로그람에 대 하여 다같이 국부성 을 도입하 
는것이 중요하다. 

기억기모형 이 속성은 기계모형이 공유기억기접근층들을 어떻게 조종하는가를 규정 
한다. 몇 가지 일 치성규칙 이 이 런 충돌을 해소하는데 러 용된다. PRAM 모형 에서 배 타적읽기, 
배타적쓰기 (EREW) 규칙을 사용할수 있는데 이 규칙에 따라 기억세포는 주기마다 최대로 
한프로쎄 스씩 읽 을수 있 고 쓸수도 있 다. 병 행 읽 기 배 타적 쓰기 (CREW) 규칙 은 매 주기 에 서 
기 억기세포를 다중처 리기 에 의해서 읽을수 있지만 쓰기는 기껏 하나의 처 리기로 할수 있다. 
병 행 읽 기 병 행 쓰기 (CRCW) 규칙 은 매 주기 에 서 다중처 리 기 가 같은 기 억 위 치 에 읽 거 나 쓰기 
를 둘 다 할수 있게 한다. 충돌하는 경우에 병행쓰기는 미러 규정된 접근방책에 따라 해소 
된다. 실제 적 인 다중처 러기 에서 공유기억기 는 성 능을 높이게 하는 기 술들을 포함한 복잡 
한 체 계 이 다. 따라서 병 렬 콤퓨터 에 서 기 억 기 접 근순서 는 다중처 리 기 가 지 원하는것 과 직 접 
적으로 부합되지 않을수 있다. 공유기 억기의 트랜잭션특성은 여러가지 기억기일치성규칙 
에 따라 설명되는데 보통 기억일관성모형으로 알려 져 있다. 이것은 5장에서 취급한다. 

정의 1.2. 원자동작이 란 다음과 같은것 이다. 

• 비분할 그것이 일단 시작되면 중간에 중단될수 없다는것이다. 이것은 다른 프로 
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쎄스의 중간상태를 볼수 없다는것을 의미한다. 

• 유한 그것이 일단 시작되면 유한시간크기내에 끝난다. 

정의 1.3. 원자동작의 더 강한 정의는 다음의 네가지 성질을 만족하여야 한다. 이러 
한 원자동작을 트랜잭션이라고 부론다. 

원자성 트랜잭션은 정의 1.2 를 만족시킨다. 그것을 다른 방식으로 보면 트랜잭션의 
부분조작의 전체 가수행되거 나 어떠한 부분조작도수행되지 않는다. 

일치성 트랜잭션은 언제나 무모순인 한 상태로부터 다른 상태에로 프로그람을 이동 
한다. 트랜잭션은 프로그람의미론에 의존된다. 실례로 단어쓰기 조작은 절반단어를 쓰지 
말아야 한다. 

고립성 트랜잭션의 효과(결과)는 그것이 다른데로 넘어 갈 때까지 다른 트랜잭션에 
서 로 출되지 말아야 한다. 

견고성 다른데로 넘 어 간다면 트랜잭션의 효과는 체계 가 실패할 때까지 남아 있다. 


1 . 3. 2. 성능속성 

의미 속성은 프로그람작성 자가 정 확한 병 렬 프로그람을 쓰기 위 하여 의 미 들을 리 해 해 
야 한다는 점에서 중요한 속성이다. 이 속성들은 상대적으로 오래동안 지속하며 보통 병 
렬 콤퓨터 의 한 세 대 로부터 다음세 대 에 이 르기 까지 갈은것 을 유지 한다. 병 렬 콤퓨터 에 는 
다른 속성들이 있는데 그것은 프로그람작성 자가 효과적 인 병 렬프로그람을 개 발하려면 알 
아야 한다. 이런 성능속성들은 고도로 가동환경에 관계되는것이며 보통 매 세대에서 개 


표 1-4 병렬체계성능속성 


용어 

표기 

단위 

기계 크기 

n 

차원 없음 

박자속도 

/ 

MHz 

작업부하 

W 

Mflop 

순차실행시간 

Ti 

S 

병렬실행시간 

T n 

S 

속도 

P n = WIT n 

Mflop/s 

속도증가 

S n =TxlT n 

차원 없음 

효률성 

E „= S„/n 

차원 없음 

러용 

U n = P n ^ nP peak) 

차원 없음 

시동시간 

h 

US 

점근대역너비 

广。 o 

MB/s 
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선된다. 기 본성 능속성 들이 표 1-4 에 제 시 되 였 다. 기 계크기 «은 한 병 렬 콤퓨터 의 처 리 기 수 
이다. 작업부하 씨는 한 프로그람에서 계산조작의 수이다. Ppd 는 처리기의 최대속도이다. 

정 의 1.4 병 렬 프로그람에는 세 가지 형 태 동작이 있 다. 계 산동작은 산수/론러，자료전 
송, 순차형콤퓨터에서 볼수 있는 조종흐름동작을 포함한다. 

병 렬성동작은 생 성과 정지，문맥절환, 그롭화와 같은 프로쎄 스를 관리하는데 필요되 
며 호상작용동작을 통신하고 프로쎄 스들을 동기 화하는데 요구된 다. 

병 렬성과 호상작용동작은 명시적 이거 나 암시적일수 있다. 명시 적동작은 병 렬프로 
그람본문에서 나타나는것이다. 실례로 프로쎄스는 UNIY 함수 fork ( )를 호출하여 명시 
적으로 생성될수 있다. 암시적동작은 프로그람에서 나타나지 않지만 체계 에 의하여 암 
암리에 수행된다. 

실례로 프로쎄스의 시간토막이 실행에서 벗어 나면 조작체계는 프로쎄스교환이 현재 
의 프로쎄스를 대기렬안에 놓고 다른 프로쎄스가 실행되게 한다. 이러한 프로쎄스교환은 
병렬프로그람에서 명시적으로 규정되지 않는다. 명시적 그리고 암시적인 동작모두는 실 
행하는데 시 간이 걸린 다. 

정 의 1. 5 병 렬성 과 호상작용동작은 순수 계 산작업 부하를 실 행 하는데 요구되 는 시 간 
외 에 수행하는데 추가시 간이 요구된다는 점 에서 부가처 리의 원인으로 된다. 특히 이 부 
가처리들은 다음의 네 단계로 나눌수 있다. 

• 프로쎄 스관리 에 의하여 일 어 나는 병 렬 성 부가처 리 

• 처리기들이 정보를 교환할 때의 부가처리 

• 동기 화동작을 수행하는데 서 의 동기 화부가처 리 

• 어떤 프로쎄스가 다른 프로쎄스들이 동작하는 동안 기 다릴 때에 초래되는 부하 
불균형부가처리 

부가처러가 없어 «처리기를 사용할 때 속도증가는 언제나 «이다. 

이러한 부가처리는 3장에서 자세히 취급될것이다. 지금은 한 마디로부터 다른 마디 
로 한개 의 통보를 통신하기 위한 두개 의 부가처 리척 도를 간단히 정 의한다(처 음으로 
Hockney 가 도입 하였 다 [313].). 

이러한 통신을 점대점 통신이라고 부론다. 집중통신이라고 부르는 다른 형태의 통 
신이 있는데 하나이상의 통보문이 다중마디에서 동시에 통신된다. 시동시간은 〜으로 

표시하며 하나의 Obyte 또는 짧은 통보문(실례 로 한 단어)을 통신하는 시 간이 다. l / is 단 
위로 젠다. 시동시간은 역시 통신지연시간 이라고 부르며 또는 간단히 지연시간 이라고 
한다. 점근대역너 비는 r 여로 표시하는데 긴 통보문을 통신하는 비률 ( MB / S 로 젠다.)이 다. 
이 용어들은 점대점 그러 고 집중통보문넘기 기동작들에서 전체 통신시 간을 평 가하는데 
사용된다. 
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1 . 3. 3. 추상기계모령 

추상기계모형은 주로 물리기계의 세부가 필요 없는 병렬알고리듬의 설계와 해석에서 
쓰 인다. 

아래에서 세개의 추상모형을 본다. 매 모형은 서로 다른 가정하에서 많은 변종을 가 
진 다. 


PRAM 모형 이 미 1.3.1 에 서 PRAM 모형 의 의 미 속성 을 서 술하였 다. 그것 의 성 능속성 을 
보면 다음과 같다. 

• 기계크기 «은 임의의 크기일수 있다. 

• 기 본시 간단계 를 주기 라고 부론다. 

• 한 주기내에서 매 처리기는 반드시 하나의 명령을 수행한다. 명령은 빈 명령일 
수 있는데(다시 말하면 아무것도 하지 않는다.) 이 경우에 처리기는 그 주기에서 
휴식한다고 말한다. 

• 모든 처 리기들은 매 주기에서 암시적으로 동기화되며 동기화부가처리는 령이라 
고 가정한다. 통신은 공유변수의 읽 기 쓰기 를 통하여 진행 된 다. 통신부가처 리 는 
무시된다. 병 렬성부가처 리도 무시된다. 따라서 PRAM 프로그람에서 유일하게 고 
려되는 부가처 리는 작업불균형부가처 리 이다. 

• 명령은 임의의 우연접근명령일수 있다 [16]. 실례로 명령은 한주기에서 다음의 세 
가지 동작을 수행 한다. 

• 기억기로부터 연산수 하나 또는 두 단어를 꺼내며 

• 산수론리연산을 수행하고 

• 결과를 기억기에 저장한다. 

실 례 1.4. PRAM 기 계우에 서 병 렬 실 행 

2개 의 N 차원벡 토르 A 와 묘의 스칼라적 S 를 EREW PRAM 콤퓨터 에 서 계 산하기 위하 
여서 는 27 VM 주기에서 국부결과를 얻기 위 해 매 처리기에 2 Mn 개의 더하기와 곱하기를 배 
정할수 있 다. 나무형 감소법 을 씨 서 log « 주기 내 에 «개 의 국부합을 최 종합 "에 더할수 있 
다. 전체 실행 시 간은 2"/« + 10용« 주기 이 다. 2 iV ■ 개 주기 를 가지는 순차알고리 듬과 비 교 
하면 병 렬 PRAM 알고러듬들은 속도증가가 N»n 일 때 «/{l + [«/(2 A 0] log «} 나« 으로 된다. 

순차알고리 듬의 시 간복잡성 은 한파라메터 즉 문제 크기 N 와 함수이다. 병 렬 PRAM 알고 
리 듬은 또 다른 파라메터 즉 기 계 크기 «을 도입 한다. 대 부분의 PRAM 알고리 듬의 시 간복잡 
성은 N 과 n 의 함수로 표현된다. PRAM 모형은 작업불균형부가처리를 고려한다. 실례로 우의 
병렬성알고리듬의 마지막단계에서 오직 한 처리기만이 일하면서 최종합을 계산하고 이때 
다른 처리기는 대기상태에 있다. 

그것은 간단하고 의미가 명백하므로 PRAM 모형은 지금까지 많은 콤퓨터과학자들 
에 게 익 숙해 졌다. 리 론적병 렬알고리 듬의 대 부분은 PRAM 모형 또는 그것 의 변종에 맞 
게 규정 된 다. 이 모형 은 역 시 병 렬알고리 듬의 복잡성 을 해 석하는데 널 리 쓰인 다. 
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PRAM 모형 의 주되 는 결 함은 령통신부가처 리 와 명 령준위동기 에 대 한 비 현실 적 인 가정 
에 있다. 

PRAM 모형 과 관련한 또 하나의 문제 는 PRAM 알고리 듬의 시 간적복잡성 이 자주 큰 0 
표기법으로 표현된다는것이다. 이것은 자주 혼돈되는데 그것은 기계크기 n 이 보통 현재 
병 렬콤퓨터들에서 작기때 문이 다. 실제적 인 기 계성능을 평 가하는데서 큰 복잡성 에 절대 로 
의거하지 말아야 한다. 

실례 1.5. PRAM 단계들에서 계산복잡성 

세 개의 PRAM 알고리 듬 A , B , C 가 시 간복잡성 In , ( nlogn )/4 nlog « 을 가지 고 n _ 처 리 기 
PRAM 콤퓨터우에 서 실 행 된다고 하자. big 표기 법 에 따르면 알고러 듬 고가 가장 빠르고的 
그다음 CCOloglog 비)이 며 제 일 느린것은 5(( nlogn )) 이 다. 

사실상 1024개 의 처 리 기 보다 크지 않은 처 리 기 를 가지 는 기 계 들에 서 logn 
츠 logl 024=10 이 고 loglog ? 변 loglogl 024<4 이 다. 따라서 1024개 보다 작은 처 리기를 가진 체 계 
들에서 가장 빠른 알고리듬은 실지로 S 이고 그다음은 C ■이다. 그리고 가장 느린것은 고이 
다. PRAM 모형 에 기 초한 병 렬 정 렬 알고리 듬은 O ( n ) 항목들을 0( logn ) 시 간내 에 정 렬 할수 있 
다. 그러나 실계적인 병렬콤퓨터에서 정렬화는 이러한 “최량화” 된 알고리듬을 쓰지 않 
는다. 왜 냐하면 큰 표기 법 은 큰 상수인자를 숨기 기 때 문이 다(반영하지 않는다.). 게 다가 이 
O ( logn ) 알고러듬이 개선될 때조차 여전히 실제적인 사용에 적합치 않는데 그것은 모든 
부가처 리 를 무시 하기 때 문이 다. 

PRAM 모형 은 정 확치 않음에도 불구하고 많은 세부적 인것들을 추상화하며 높은 수준 
의 병 렬알고리 듬을 개 발하는데 서 우월 한 모형 으로 된 다. 많은 병 렬알고리 듬들은 PRAM 
모형을 씨서 개발되므로 실제적으로 훌륭한 알고리듬으로 된다. 때때로 비현실적인 
PRAM 알고리 듬은 실제 적 인 알고리 듬으로 개 선될수 있다. 그것들은 모두 부가처 리 를 수 
행 하기 위한 보충적파라메터 들을 도입하며 PRAM 모형보다 좀 더 복잡하다. 모든 이 추 
상모형 들에 공통적 인 특징 은 그것 들이 통신망위 상에 무관계하다는것 이 다. 

BSP 모형 다량동기병 렬 모형 ( BSP ) 은 하바드종합대 학의 Leslie valiant 에 의하여 PRAM 
모형 의 결 함을 극복하기 위해서 창안되 였 다. 한편 이것 은 PRAM 의 성 질을 유지 하고 있 
다. BSP 를퓨터 는 그림 1-4 에서 보는바와 같이 통신망에 의해서 호상접속되는 «개처 리 기/ 
기 억쌍(마디 ) 들의 모임 으로 구성 된다. 

BSP 프로그람은 «프로쎄스를 가지며 매개 프로쎄스는 하나의 마디우에 상주한다. 기 
본시간단위는 주기(또는 시 간단계)이 다. 프로그람은 초걸음의 엄밀한 렬로서 실행된다. 

매 개 초걸음안에서 프로쎄스는 최대 로 «주기 내 에 계산동작을 수행하며 통신동작은 
배주기에 걸쳐 실행되고 하나의 장벽 ( barrier ) 동기화는 /주기에 걸쳐 수행된다. 장벽은 모 
든 프로쎄스들이 그것의 어느 하나가 다음초걸음을 시작하기전에 현재 초걸음을 끝내도 
록 기다리게 한다. 

BSP 콤퓨터 는 MIMD 체 계 이 다. 왜 냐하면 프로쎄 스들은 각이 한 명 령 들을 동시 에 수행 할수 
있기때문이다. 그것이 초걸음준위에서 완만하게 동기화되는데 비해서 명령준위는 PRAM 모 
형 에서 밀 접하게 동기화된다. 한초걸음내 에 서 각이한 프로쎄 스들은 그자체 의 단계 에 서 
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W ： 매 초고속단계에서 
최대계산시간 

/: 장벽공기화부가처리 
g : h 관게 곁수 


• MIMD 

• 초고속단계: 

계 % 

통 € 

장 벽 

• 변수 grain 

• 성 4 둡기 

• 비령부가처리 

• 통보문통과 혹은 
공유변수 


그림 1-4. 다량동기병렬모형 

비동기적으로 실행된다. BSP 모형은 어떤 규정된 호상작용기구를 요구하지 않는다. 즉 그 
것은 공유변수이든지 통보문넘 기 기일수 있다. 하나의 주소화공간이 있으며 하나의 처 러 
기는 그것의 국부기 억뿐아니 라 다른 마디의 어떤 원격기 에도 접근할수 있다. 한초걸음내 
에 서 매 개 계 산조작은 오직 그 국부기 억안의 자료만을 사용한다. 이 자료들은 프로그람 
출발시 에 또는 이 전 초걸음의 통신조작에 의하여 국부기 억안에 놓인 다. 

그렇 기 때 문에 한 프로 쎄 스의 계 산동작은 다른 프로 쎄 스와 무관계하다. 통신은 언제 나 
점대점 방식으로 실현된다. 따라서 다중 프로 쎄스에 대 하여 같은 주기안에서 같은 기 억위 
치를 읽거나 쓰는것은 허용되지 않는다. 

장벽동기화로 하여 한 초걸음안의 모든 기억 및 통신동작은 다른 초걸음의 임의의 
동작을 시 작하기전에 완전히 끝나야 한다. 이 모든것은 BSP 를퓨터가 순차적 인 무모순기 
억 기 모형 을 가진 다는것 을 의 미한다. 

실제 적 인 병 렬콤퓨터가운데 서 각이한 통신형 태 를 요구하는 요소통신동작들이 있 다. 
간단히 하기 위 하여 BSP 모형 은 /!관계 개 념 에 의 하여 하나의 BSP 초걸 음안에 서 통신동작들 
을 추상화한다. 이것은 성능예 측과 알고리 듬복잡성해석 을 간단히 한다. 

정의 1. 6 A 관계는 어떤 통신동작의 추상화로서 매개 마디는 여러 마디들에 최대로 
쇼단어들을 보내며 매개 마디는 최대로 A 단어들을 받는다. BSP 를퓨터에서 A 관계를 실현하 
는 시 간은 배주기보다 크지 않으며 여 기서 요는 기 계 가동환경 에 따라 결정 되 는 상수이다. 

BSP 모형 은 프로쎄 스관리 에 서 병 렬 성 부가처 리 를 제 외 하고 모든 부가처 리 를 고려 하므 
로 PRAM 모형보다 더 현실적 이 다. 한 초걸음의 실행시 간은 다음과 같이 결정된다. 

• 부하불균형을 고려할 때 계산시간 w 는어떤 처리기가 계산동작에 소비한 주기 
의 최 대 수이다. 

• 동기화부가처리는 /이며 그것은 통신망대기시간의 아래한계를 가지므로(바꾸 
어 말하면 물리적 인 망을 통하여 한 단어를 넘기기하기 위한 시간) 언제 나 
령보다 크다. 

• 통신부가처 리는 배주기 이며 여 기서 g 는 々관계 를 실현하는 비례결수이 다. G 의 값 
은 가동환경 에 관계 되지만 통신형 태와 무관계하다. 다른 말로 말해서 gh 는 시 
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간을 소비하는 々관계를 실행하는 시간이 다. 파라메 터 요는 보다 효과적 인 통신 
지원을 가지는 를퓨터에서 작은 값을 가진다. 

• 초걸음시 간은 합 w + gh+H 의하여 평가된다. 

BSP 모형은 한 초걸음안에서 계산，통신, 동기화동작들의 중첩을 허 락하지 않는다. 동 
작의 세가지 형태는 모두 충분히 중첩되며 한 초걸음시간은 max ( w , gh , 1) 로 된다. 

그러 나 보다 긴 w + gA +/ 만을 리용한다. 


실례 1.6. BSP 기 계모형 을 사용하는 병 렬실행 

실례 1.4 에 있는 스칼라적문제를 고찰하자. 이 문제를 8개의 처리기 BSP 콤퓨터우에 
서 4개의 초걸음내에 풀수 있다. 

초걸음 1 

계산 : 매 처 리기는 w = 2 N /8 주기내 에 그것의 국부합을 계산. 

통신 : 처리기 0, 2, 4, 6은 국부합을 처리기 1，3, 5, 7에 보내고 관계 1을 적용 
장벽 동기화. 


초걸음 2 

계산 : 처리기 1, 3, 5, 7 매개는 한개의 더하기 (w = l ) 를 수행 

통신 : 처리기 1, 5는 중간결과를 처리기 3과 7에 보내고 관계 1을 적용 

장벽 동기 화. 

초걸음 3 

계산 : 처리기 3, 7은 한개의 더하기 (w = l ) 를 수행 

통신 : 처리기 3은 중간결과를 처리기 7에 보내고 관계 1을 적용 

장벽 동기화. 


초걸음 4 

계산 :처리기 7은 최종합을 생성하기 위해 한개의 더하기 (w = l ) 를 수행 
통신이 나 동기화는 요구되지 않는다. 

전체 실행시 간은 2 N /8+3 g +31+3 주기 이 다. 일반적으로 «- 처 리기 BSP 우에서 실행 시 간은 
2 N / n + logn ( g + l + l ) 주기 이 다. 이것은 PRAM 콤퓨터우에서 2 N / n + lgn 시 간 걸 리는것과 대조적 이 
다. 두개 의 나머 지 항 glogn 과 flogn 은 각각 통신 및 동기 화부가처 리 에 대 응한다. 

위 상병 렬 모형 저 자들은 위 상병 렬 모형 [65 刀을 병 렬 계 산을 위하여 제 안하였 는바 그것 
은 더우기 우의 두 추상기계모형을 세련시켰다. 

이 모형 은 BSP 모형 과 류사하며 다음 차이 를 가진다. 
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• 병렬프로그람은 위상의 렬로 실행된다. 다음단계는 현재단계에 있는 모든 동작 
들이 끝날 때까지 시작할수 없다. 위상에는 세가지 형태가 있는데 아래와 같이 
정의된다. 

병렬성위상 : 이것은 부가처 리작업 이 처 리관리 에서 동반된다는것 을 가리키는데 
그것은 프로쎄스생성 및 병렬처리를 위한 그롭화이다. 

계산위상 : 하나 또는 그이상의 처리기는 일정한 수의 국부계산동작을 수행한다. 

여기서 국부라는것은 마디에 필요한 모든 자료들이 그것의 국부기 
억안에 있다는것을 의미한다. 

호상작용위 상 : 이것은 과제 들의 호상작용동작을 수행 하는데 필요된다는것 을 가 
리키며 그 동작은 동기화 또는 집합(실례로 감소 또는 주사)조작， 
통신조작이 다. 

• 주어 진 계 산위 상에 서 씨와 갓에 의하여 작업 부하를 표시하며 (실 례 로 Mflop 로) 그 
것 은 계 산동작을 실 행 하는 평 균시간(/신)이 다. 서 로 다른 계 산위 상은 각이 한 속도 
로 각이한 작업 부하를 실 행하는데 그것 들은 서 로 다른 씨와 탓값에 대 응된다. 이 
것은 이전 두 모형과 대비되는데 여기서 매개 동작은 하나의 동일한 주기를 취 
한다고 가정하였다. 

• 각이 한 호상작용동작은 각이한 시 간이 걸린다. 그러 나 호상작용동작을 수행하는 
시간에 대한 일반적인 형식이 있다. 즉 

^interact ( m , n ) = t Q ( n ) + — = t 0 ( n ) + m - t c ( n ) (1.1) 

，、>(«) 

여 기서 m 은 통보문의 길 이 라고 부르는데 byte 로 젠 다. 시 동시 간 的비과 비동기대 역 
(«) 은 기 계 크기 n 의 함수이 다. 과라메 터 t c («) = 1/^(«) 을 byte 당 통보문시 간이 라고 

부론다. 아래 에 서 병 렬 성 , 계 산，호상작용위 상의 순차에 대 하여 설 명한다. BSP 모형 과 류 
사하게 렬을 초걸음이 라고 부론다. 호상작용이 wB 의 통보문길 이를 가지고 통신하는 경 
우에 초점을 둔다. 전부는 아니지만 어떤 위상들은 한 초걸음안에서 빠질수 있다. 실례로 
초걸음은 바로 하나의 계산위상을 포함하며 한편 다른 초걸음은 꼭 하나의 호상작용위상 
를 포함할수 있다. 


실례 1.7. 위상병렬모형을 리용하는 병렬실행 

실 례 1.4 의 스칼라적문제 를 다음의 3-위 상병 렬 알고리 듬으로 푼다. 

첫번째 위 상은 «프로쎄 스를 생 성한다. 두번째 위 상에 서 프로쎄 스 유는 모든 0多•空에 
대 하여 eotjdy LocalSum [ i ] 를 계 산한다. 세번째 위 상에 서 모든 프로쎄 스들이 최 종결과 S 를 
생 성하는 감소동작에 참가한다. 

계 산위 상에 서 매 개 프로쎄스는 1今의 속도로 2 N/n flop 의 작업 부하를 계 산하며 여 기 
서 tj 는 한 처 리기 가 한 flop 를 수행하는 평 균시간이 며 단일처 리 기속도의 거끌수와 같다. 
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즉 뉴 1 /p 이 다. 


병렬위상 : 

parfor (/-0; /<«; /++) 


{ (»+!>* 

계산위상 

: ( localSum )[ j ] = 2 A [/]. B [/] 


J=in 

호상작용위상: 

s = sum_reduction ( LocalSum [/]); 

} ° 


그림 1-5. 위 상병 렬 모형 을 리 용한 병 렬 스칼라적 계 산 


병 렬성작업부하는 수 ( n ) 이 고 감소동작을 위한 호상작용작업부하는 세切이 라고 가정 하 
자 (감소동작은 상수통보문길이 m =4 B 을 가 진 다.). 그러면 전 체 실 행시 간은 
2 Ntf / n + tp ( n )+ to ( n ) °1 다. 

초걸음에서 «개 처리기에 의하여 수행되는 전체 계산작업부하가 라고 가정하자. 

그것은 «개 독립계 산들로 나눌수 있다. «개의 독립계산의 실행시 간은 우연변수로 가정되 
며 그것 은 wtf 의 평 균값을 가지 며 표준편 차는 사/이 다. 그렇 기때 문에 파라메 터 씨와 "는 
각각 평 균값과 표준편 차를 표현한다. 직 관적 으로 씨는 립도이 며 "는 작업 불균형 을 각각 
가리킨다. 작은 "는 근사적으로 균형화된 병렬계산위상을 가러킨다. "=0일 때 전체 작 
업부하 씨는 처리기들안에서 골고루 분할된다. 

n 개 처 러기들이 서 로 무관계한 계산들을 수행하므로 계산단계의 실행시 간은 «개의 
처리기의 개별적인 실행시간들가운데서 최대값으로 되여야 하며 이것은 로 표시된다. 
Kouskal 과 Weiss [379] 의 최대값이 


= (w + <7 yj 2 logn ) t , 


(1.2) 


에 의하여 근사된다. 

정의 1.7 초걸음의 호상작용위상에서 통보문길이가 라고 가정하자. 

파라메터 여를 초걸 음의 통신 대 계 산비률 ( CCR ) 이 라고 부르며 flop 계 산당 통신되 는 
데 몇 byte 가 필 요한가를 측정한다. 

식 (1.1) 로부터 호상작용작업부하는 

T interact = 1 0 { n ) + mIr ^( ji ) = t Q ( ji ) + a ■ w ■ t c ( n ) (1.3) 


으로 표현된다. 

« 처리기우에서 초걸음의 전체 실행시간은 


32 



T n = T comp +T interact + T par 

= (l + o 、 /21og«)f f +t 0 (n) + a- co . t c (n) + t p (n) 


(1.4) 


에 의하여 표현된다. 

위상병렬 모형은 PRAM 과 BSP 모형을 개선하였으므로 실제적인 기계/프로그람트랜잭션 
을 포괄하는데 더 편리하다. 모든 작업부가처리형태들은 식 (1.4) 에서와 같이 계산된다. 즉 
부하불균형부가처 리( "항), 호상작용부가처 리的과 4항), 병 렬성부가처리法항)들이 계산된다. 
각이 한 호상작용에는 각이 한 식들이 사용된다. 


표 1-5 위상병렬모형의 파라메터 


파라메 터 

단위 

의미 

의튼성 

r o 

나 s 

시 공시 간 

체 게 


나 s/B 

lbyte 를 통신하는 A% 

체 계 

，/ 

나 s 

IBiop 실행 #% 시 간 

체계와 응응 


나 s 

병별부가처리 

체 게 

W 

Mflop 

평균작업부하 

응용 

a 

Mflop 

작업부하의 표준편차 

응용 

a 

B/flop 

1 신 대 계■산비 를 

옹용 


이 식 들은 호상작용조작들을 실제 기 계우에 서 측정하여 얻 을수 있 다. 일 단 엄 으면 
그것들은 각이한 응용들에서 여러번 사용할수 있다. 이러한 내용은 3장에서 다시 취급된 
다. 위 상병 렬 모형 에 서 리 용된 파라메터 들은 표 1-5 에 서 개 괄된 다. 

1 • 3. 4. 물리기계모령 

대 규모를퓨터 체 계들은 일반적 으로 여섯개 의 실천적 인 기 계 모형 으로 분류되 는메 그것 
들은 다음과 같다. 단일 명 령 다중자료 ( SIMD ) 기 계，병 렬 벡 토르처 리 기 ( PVP )， 대 칭 다중처 리 기 
( SMP ), 대 용 량병 렬 처 리 기 ( MPP ), 워 크스테 이 션클라스터 ( COW ), 분산공유기 억 기 ( DSM ) 다중 
처리기들이다. SIMD 콤퓨터들은 대부분 특수목적의 응용들에서 사용된다. 기타 모형들은 
모두 MIMD 기 계 들이 며 표 1-6 에 서 제 시한다. 

다섯개의 병렬모형을 그림 1-6 에서 보여 주었다. 대부분의 현대 병렬콤퓨터들은 
상업 적 으로 쓸수 있 고 즉시 에 구입할수도 있다. 그것 은 하드웨 어 와 쏘프트웨어 구성 요 
소들로 만들어 졌다. 오직 례외로 되는것은 PVD 기계이며 많은 제작블로크들은 전용으 
로 만들어 졌다. 
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표 1-6 _ 병렬기계모형의 의미속성 


속성 

PRAM 

PVP/SMP 

DSM 

MPP/COW 

동차성 

MIMD 

MIMD 

MIMD 

MIMD 

동기화 

명령준위동기 

비동기 혹은 
성긴 동기 

비동기 혹은 

성긴 동기 

비동기 혹은 

성긴 동기 

호상작용기구 

공유변수 

공유변수 

공유변수 

통보문넘기기 

주소공간 

단일 

단일 

단일 

다중 

접근비용 

UMA 

UMA 

NUMA 

NORMA 

기억기모형 

EREW, CREW or 

CRCW 

순차일치 성 

약한 순서화가 

널러 쓰인다 

N/A 

기계 실례 

러 론적 모형 

IBM R50, 

Cray T~90 

Stanford DASH, 

SGI Origin 2000 

Cray T3E, 

Berkeley NOW 


병 렬벡토르처 리기 전형적 인 병 렬벡토르처리기들인 PVP 의 구조를 그림 1-6 1) 에서 
보여 준다. PVP 의 실례들로서 Cray 090, Cray T -90, NEC SX _4 가 있다. 이 체계들은 적 
은 수의 주문설계된 벡토르처리기 ( VP ) 들을 포함하며 매개는 최소한 lGflop / s 성능을 가진다. 

주문설 계 된 고대역 크로스바교환기 는 이 벡 토르처 리 기 들을 얼 마간의 공유기억 기 ( SM ) 
모듈들에 련결하는데 그것은 고속자료접근을 제공한다. 실례 로 T -90 에서 공유기억기는 
자료를 하나의 처리기에 14 GB/S 로 넘길수 있다. 이러한 기계는 보통 캐쉬를 사용하지 않 
으며 오히 려 많은 벡 토르등록기 와 명 령 완충기 를 사용한다. 

대칭다중처리기 SMP 의 구조를 그림 1-6 니에서 보여 주었다. 그 실례로 IBM R 51, 
SGI Power Challenge , DEC Alpha Server 8400 이 있 다. PVP 와 달리 SMD 체 계 는 소편내 장캐 
쉬와 소편외장캐쉬를 가지는 극소형처러기들을 사용한다. 이 처리기들과 공유기억에 고 
속 snoopy 모선을 통하여 련결된다. 어떤 SMP 들에서는 크로스바교환기의 모선에 보충적 
으로 사용된다. 

SMP 체계들은 상업적응용들에서 많이 사용되는데 그 응용들은 자료기지,닫긴 트랜잭 
션체계, 자료보관고들에서 러 용된다. 체계가 대칭 이라는것 이 중요하며 거기서 매개 처 리 
기 는 공유기억， I / O 장치 들과 조작체 계봉사에 대 하여 동일 한 접 근을 가진다. 대 칭 이 면 고 
수준의 병렬성을 실현할수 있다. 그것은 비대칭(또는 주종관계)다중처리기체계에서는 불 
가능하다. 1997년에 대부분 PVP 와 SMP 들은 최대로 64처리기를 가지고 있었고 그것은 Sun 
Ultra Enterprise 1000에 서 볼수 있 다. 한계 는 주로 중심 화된 공유기 억 과 모선 또는 직 교체 
계와 호상련결되여 쓰이는데 기인되며 그것은 한번 만들어 졌을 때 둘 다 확대하기가 불 
가능하다. 

대 용 량병 렬 처 리 기 과학계산，공학모의，신호처 리，자료창고관리 등과 같은 응용들에 
서 리용된다. 고도의 병 렬성의 우점을 살러 려면 분산기 억구성 방식을 개 발하여 보다 높은 
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그림 1-6. 다섯개 의 물러적병 렬 콤퓨터모형 : PVP, SMP，MPP,DSM 와 COW 


확대 가능성 을 리용하여 야 한다. 그 구조들은 MPP 와 DSM 그러 고 COW ■들이다. 

MPP (대용량병렬처리기)는 다음의 특징을 가지는 대단히 큰 규모의 콤퓨터체계를 가 
리킨 다. 

• 프로쎄 스마디들에서 상품극소형처 리기들을 러 용한다. 

• 프로쎄 스마디 들전체 에 대 하여 물리 적으로 분산된 기 억을 리용한다. 

• 높은 통신대역 너 비 와 낮은 지 연시 간을 가진 호상접 속을 리용한다. 

• 수백 또는 지 어 수천개의 처 러기들로 확대할수 있다. 

• 다중처 리모형 과 마찬가지 로 MPP 는 비 동기 MIMD 이 다. 그러 나 프로쎄스는 공유 
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변수동기동작이 아닌 블로크통보문과 동작을 통하여 동기화된다. 

• 프로그람은 다중프로쎄스들로 구성되며 매개는 전용주소공간을 가진다. 프로쎄 
스들은 통보문을 통과하여 호상작용한다. 

그림 1-6 미에 서 모형화된 MPP 는 보다 계한적인데 Intel Paragell 과 TFLOP 와 같은 
기계를 표현한다. 이런 기계는 얼마간의 프로쎄스마디들로 이루어 지고 매개는 하나 또 
는 그이상의 극소형처 리기를 포함하며 극소형처 리기들은 고속기 억기 모선에 의하여 국부 
기억과 망대면부회로 ( NIC ) 에 호상접속된다. 그 마디들은 하나의 고속, 독점통신망에 호상 
련결된다. 이 마디들을 밀집결합된다고 말한다. 

분산공유기 억 기 ( DSVI ) 기 계 DSM 이 그림 1-6 근 )에 서 모형 화되 고 있 는데 Stanford 
DASH 구조 [405] 에 기 초하고 있 다. 캐쉬 등록부 ( DIR ) 는 분산일 관성캐 쉬 를 지 원 하는데 사용 
된 다. Cray T 3 D 는 역 시 DSM 기 계 이 다 [3]. 그것 은 일 관성 캐 쉬 를 실 현 하는데 사용하지 않 
는다. 대 신에 T 3 D 는 특수한 하드웨 어와 쏘프트웨어의 확장에 의거하여 임의의 블로크크 
기준위에서 DSM 에로 확장되며 크기준위는 단어로부터 공유자료의 큰 폐지에 이르기까 
지 포괄된다. 

DSM 기계와 SMP 기계사이의 주요차이는 기억이 물리적으로 각이한 마디들가운데서 
분산된 다는것 이 다. 그러 나 체 계하드웨 어 와 쏘프트웨어 는 응용사용자들에 게 단일 한 가상 
주소공간을 생성해 준다. DSM 기 계 는 역 시 TreadMarks 와 같은 워 크스테 이 션망우에서 쏘 
프트웨어확장으로 실현될수 있다. TreadMarks 는 10장에서 고찰하게 된다. 

름퓨터의 들라스터 클라스터의 개념은 그림 1-6 n ) 에서 보여 준다. 실례로서 
Digital TruCluster [197], IBMSP 2[14], BerkeleyNOW [178] 이 다. 클라스터는 어떤 경 우에는 저 
비 용 MPP 의 변종이 다. 클라스터특징 에 서 중요한것 을 아래 에 서 술한다. 

• COW 의 매개 마디는 완전한 워크스테 이션으로서 몇가지 주변기구(실례로 화면, 
건반，마우스 기타 등등)를 가지지 않는다. 이러한 마디를 때때로 “ 머리 없는 
워크스테 이션이 다” 라고 부론다. 마디는 역시 SMP PC 로 된다. 

• 마디 들은 저 비 용상업망 (즉 Ethernet , FDDI , Fiber - Channel , ATM 교환)을 통하여 
련결된다. 하지만 독점적 인 망이 몇가지 상업적클라스터들에서 사용된다. 

• 망대 면부는 마디안에서 I / O 모선에 성 긴 쌍결합된다. 이 것은 MPP 가(그림 1-6 n ) 
밀집결합된 망대면부를 가진다는것과 관련된다. 그리고 MPP 의 망대면부는 프로 
쎄스마디의 기억모선에 련결된다. 

• 항상 국부디 스크를 가지 며 그것은 MPP 마디 에서는 존재하지 않는다. 

• 매개 마디에는 완전한 조작체계가 있으며 한편 어떤 MPP 들에서는 오직 하나의 
마이 크로핵 심 부만이 존재 한다. COW 의 조작체 계 는 동일 한 워 크스테 이 션 UNIX 
에 단일 체 계 상과 리용가능성，병 렬 성，통신, 부하균형 을 지 원 하기 위해 부가쏘프 
트층을 더한것 이 다. 
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MPP 와 COW 사이의 경계는 요즈음 모호해 지고 있다. IBM SP 2 은 MPP 로 고찰된다. 
그러 나 그것 은 클라스터 구조를 가지 며 독점 고성 능교환은 통신망으로 리 용된 다. 클라스터 
화는 확대가능한 병렬콤퓨터들을 개발하는데서 하나의 추세로 되는데 그런 콤퓨터들은 
다음부분에서 강조된다. 

1.4. 클라스터화의 기본개념 

이 부분에서는 콤퓨터의 클라스터와 관련된 기본개념들에 대하여 더 구체적으로 고 
찰한다. 

다중콤퓨터 클라스터 는 아래 에 서 SMP 와 MPP 분산형 체계 들과 갈라 볼수 있 다. 우점 과 
문제 점 들은 클라스터 를 만드는데서 찾아 볼수 있 다. 세 부적 인 망기 술은 6장에 서 고찰된 
다. 클라스터화의 원리는 9장에서 고찰되며 클라스터체계의 실례는 10장에서 고찰된다. 

1.4.1. 클라스터의 특성 

클라스터는 완전한 콤퓨터(마디들)의 집 합체 이고 그 집합체는 물리적으로 고성능망 
또는 국부망 ( LAM ) 에 의해서 호상련결된다. 전형 적 인 콤퓨터마디 SMP 봉사기 로는 워 크스 
테 이션개 인용콤퓨터 이 다. 보다 중요하게 모든 클라스터마디 들은 서 로 하나의 집 적 화된 
계산자원처럼 집합체로서 동작할수 있어야 하며 그 과정에 개별적으로 호상작용하는 리 
용자들이 매 개 마디 를 리용하는데 서 사용자들의 요구를 충족해 야 한다. 

다섯개의 구조적개념들이 전체 콤퓨터를(마디) 하나의 호상련결된 모임으로 하여 하나의 
클라스터안에 포함된 다. 그 를퓨터 들은 련속적 으로 효과적 인 (성 능)봉사를 제 공하는 하나의 
체 계와 같이 집 합체처 럼 작용한다. 클라스터의 개 념적구조를 그림 1-7 에서 보여 주었다. 


프로그람작성환경과 응용 

리 용가능성 과 단일 채 계 형 래 하부구조 

OS 


OS 


OS 

마 디 


마 디 


마 디 

1 


1 


1 

상품 혹은 소유호상접속 ᄂ 


그림 1-7. 다중콤퓨터 의 대 표적 인 콜라스러구성 방식 

클라스터 에 관한 다섯 개 의 구조적개 념 들을 아래 에 서 술한다. 나머 지 는 9장과 10장에 
서 고찰한다. 

• 콜라스터마디 매개 마디는 완전한 를퓨터이다. 이것은 매개 마디가 처리기들, 
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캐쉬 들，여 러개의 I / O 적 응기 들을 가진다는것 을 의 미한다. 게 다가 완전한 표준조 
작체계는 매개 마디에 있다. 마디는 하나이상의 처리기를 가질수 있지만 오직 
OS 상에 서 는 하나의 복사를 가질수 있 다. 10장에 서 는 몇 가지 클라스터마디 들의 
일부를 서술할것이다. 

• 단일체계영상 클라스터는 단일계산자원이다. 이것은 분산체계와 대조적인데(실 
례로 국부콤퓨터망) 여기서 마디들은 오직 개별적인 자원으로서 사용된다. 콜라 
스터는 몇가지 단일체계 ( SSI ) 기술에 의하여 실현된다. 

SSI 는 클라스터를 사용하기 쉽고 관리하기 쉽게 한다. 지금까지 상업적으로 리 
용할수 있는 클라스터 들은 충분한 SSI 조작의 정 도를 달성하지 못하였 다. 

• 마디 간 련결 클라스터 의 마디 들은 Ethernet FDDI , Fiber - Channel 들이 다. ATM 교 
환과 같은 망을 통해서 련결된다. 그러 나 표준규약들은 마디간 통신에 사용된다. 
클라스터 를 구성 하기 위한 각이한 망들은 6장에 서 고찰된 다. 

• 높아 진 유용성 클라스터는 체계의 유용성을 높이는 비용효과적인 방도를 제공 
해 주는것 으로써 체 계의 유용성은 체계 가 사용자에게 유용하게 되는 시간률이다. 
유용성 기 술은 9장에 서 고찰된 다. 

• 높은 성 능 클라스터 는 일 련의 봉사령역 에서 높은 성능을 계공해 야 한다. 그 하 
나의 령역은 초봉사기로서 클라스터를 취급하는것 이 다. n _ 마디클라스터의 매개 
마디가 w 개 의뢰기에게 봉사한다면 클라스터는 전체적으로 의뢰기에 동시에 
봉사할수 있다. 

다른 령역은 분산병렬처리에 의해큰 단일일감을 실행하는 시간을 최소화하는데 클 
라스터 를 리용하는것 이 다. 

1 . 4. 2. 구성방식의 비교 

클라스터， SMP , MPP 분산체계들은 네개의 중복된 구조로서 그림 1-8 에서 그것을 보 
여 주었다. 분산체계의 실례는 LAN 이다. LAN 에서 마디는 PC , 워크스테이션 또는 SMP 
봉사기 일수 있 다. 마디복잡성 은 하드웨 어 와 쏘프트웨어 와 관련된 다. 클라스터마디 는 MPP 
마디보다 복잡하다. 왜 냐하면 클라스터는 디스크와 독립적 인 조작체 계를 가지며 MPP 는 
디스크를 가지지 않을수 있고 또 오직 극소핵심부만을 사용하기때문이다. 

SMP 봉사기 는 클라스터 가 말단기，인쇄 기，외 부확장불가능 디 스크여 유묶음 ( RAID ), 테 프 
장치 와 같은 많은 주변장치 를 가지 므로 대 단히 복잡하다. 이 주변장치가운데 서 어 떤것 들은 
클라스터마디에 없을수도 있다. 앞으로 클라스터경계는 MPP 와 SMP 가 더 많이 중첩되게 련 
속적으로 확장될것이라고 보고 있다. 

수평축은 여러가지 추상준위 즉 한 응용으로부터 부분체계, 실행체계， OS 핵심부，하 
드(기 억과 I / O ) 준위까지 이 르는 여 러 추상준위 에서 SSI 의 정 도를 보여 준다. 다시 말하여 
SSI 는 상대적개념으로서 사용자의 관점으로부터 SSI 의 경계에 관계된다. SMP 는 언제나 
모든 준위 에서 SSI 를 제공한다. MPP 는 오직 몇개의 응용과 체계준위 에서 SSI 를 지원한 
다. 클라스터를 SMP 로부터 MPP 와 류사한 준위에로, 낮아 진 준위에서 SSI 를 제공한다. 
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클라스터 혹은 MPP 는 하나의 단일자원으로 사용될수 있다(실례로 하나의 거대한 워크 
스테 이션). 한편 분산체계는 언제 나 망령역에서 개 별적콤퓨터들의 자립성 으로 하여 다중체 
계망을 형성한다. 표 1-7 에서 몇가지 체계 에 대 하여 다른 특징을 비교해 보자. 현재의 MPP 
와 분산체계는 최대 로 수천개 마디 로 되 여 있다. 대부분 콜라스터들은 수십개의 마디 를 가 
지며 오직 몇개의 클라스터만 수백개를 넘는 마디들을 가진다. 



MPP 마디 들은 자주 극소핵 심 부를 실 행하며 한편 다른 구조에 있 는 마디 들은 완전한 
OS 를 실행한다. 분산체 계 에서 조작체 계들은 보통 이질적 이지만 다른것들은 동일한 0 S 를 
리용한다. 마디간 통신은 때때 로 MPP 나 클라스터의 통보교환에 의하여 진행된다. 이 와는 
반대로 봉사기에서 공유된 파일들은 분산체계에서 주로 사용한다. SMP 안에서 처리기들 
은 공유기억 을 통하여 통신된 다. 다만 SMP 만은 하나의 단일 한 주소공간을 가지 고 있 다. 
MPP 는 DSM 이 하드웨 어 와 결합될 때 만 단일주소공간을 가진다. 

SMP 는 모든 처 러기들에 대 하여 단일실행대기렬을 가진다. 다중실행대기렬은 콜라스 
터와 MPP 마디들에서 사용된다. 그것들은 작업부하가 균등하게 조화된다. 분산체계에서 
다중대 기렬은 대부분 독립 적 이 다. 분산체 계 는 표준통신망과 이 질마디 가동환경 을 적 응하 
게 해 야 한다. 분산체 계 는 여 러 체 계 들사이 에 련계 를 보장해 주어 야 한다. 따라서 마디간 
비 밀안정 성 을 보장해 야 한다. 여 러 MPP 나 클라스터 는 이 것 들을 요구하지 않는다. 

1 ■ 4. 3. 클라스터의 우단점 

클라스터의 개념은 많은 리익들을 주는것과 동시에 문제거리도 제기된다. 

그가운데서 가장 중요한것은 리 용가능성，유용성，확대 가능성，유용한 리용성，성능 
대 비용비률이다. Ethernet 를 통해서 워크스테이션의 한 묶음을 간단히 련결하고 그것들 
을 클라스터 에 중첩 하는것 은 높은 적 합가능성 과 고성 능체 계 를 구성 하기 어 렵 다. 몇 가지 
기술(주로 쏘 프트) 은 이 포렌샬을 실현하는데 적절해 야 한다. 5, 9, 10장에서 이 기 술적문 
제 를 자세 히 고찰한다. 기 본개 념만을 이 제 고찰하자. 

러용가능성 클라스터의 마디들은 일반적으로 가동환경이므로 사용자들은 잘 알려 
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지고 잘 어울리는 환경에서 응용을 개발하고 실행할수 있다. 가동환경은 모든 강력한 워 
크스테 이 션프로그람작성 환경 도구들을 가지 고 있으며 (순차적 인) 수천개의 응용들이 실 행 
되게 한다. 따라서 클라스터는 거대한 워크스테이션으로 볼수 있으며 이로부터 처리량을 
증가시 키 고 다중순차사용자일 감에 대 한 응답시 간을 감소시 킨다. 

병렬응용에서 클라스터는 통보교환 MPP 보다 프로그람화하기가 더 어렵지 않다. 보 
충적 으로 많은 자료기 지 판매 자들은 자기 의 상품들을 변경하여 클라스터 에 서 실 행할수 있 
게 하였다. 그것들은 IBM DB 2 Parallel Edition , Oracle , Sybase 이 다. 


표 1-7 _ 클라스터, MPP , SMP 와 분산제계의 비교 


체계 특징 

MPP 

SMP 

콜라스터 

분산체계 

마디수 ( N ) 

0(100)- 

0(1000) 

0(10) 

혹은 less 

0(100) 

혹은 less 

0(10)- 

0(1000) 

마디 복잡성 

Fine or medium 

Medium or coarse 

grain 

Medium grain 

Wide range 

마디사이통신 

DSM 에 대한 통보문 

넘기기와 공유변수 

공유기 억 기 

통보문넘기기 

공유파일, RPC, 

통보문넘기기 

일감일정작성 

Host 에서 단일실행 

대기 

단일실행대기 

다중대 기 이 지 만 

조절된다. 

독립다중대기 

SSI 지 원 

부분적으로 

언제나 

요구 

없다 

마디 OS 복사와 

형래 

N (마이크로핵심부) 

파 1 host OS 

(일치) 

1 

(일치) 

N 

(동차요구) 

N 

(heterogenous) 

주소공간 

다중 (DSM 이 면 
단일) 

단일 

다중 

다중 

마디사이보안 

불필요 

불필요 

로출되면 요구 

요구 

소유 

한개 조직 

한개 조직 

한개이상의 조직 

많은 조직 

망규약 

비 표준 

비 표준 

표준 및 비표준 

표준 

체계 유용성 

낮은데서 중간 

흔히 낮다 

높은 리용가능성과 

고장허용 

중간 

성능척도 

처리량과 업무처리 

시간 

업무처리시간 

처리량과 업무 
처리시 간 

응답시간 

SSI: 단일체 계영상， RPC: 원격절차호출， DSM: 분산공유기억기 


유효성 유효성이란 용어는 체계가 생산적인 리용에 적합한 시간의 퍼센트를 의미한다. 
일반적 인 단일집적체계 즉 사용자대형 콤퓨터, 고장유용성체계 와 갈은것들은 값이 비싸다. 
전용화된 설계를 통하여 높은 유용성에 도달된다. 전용부분품들을 사용하는 대신에 클라스 
터는 값이 눅고 상업화된 부분품을 리 용하여 높은 유용성 을 제공하며 많은 여유를 준다. 
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• 처리기와 기억기 클라스터는 다중기억기와 처리기부분요소들을 가진다. 하 
나가 실패할 때 다른것들은 여전히 클라스터의 동작을 계속하는데 사용될수 
있다. 그와 대조적으로 SMP 기계의 공유기억기가 실패하면 전체 체계는 정지 
된 다. 

• 디스크배렬 클라스터는 여러개의 국부디스크들을 가진다. 따라서 하나의 고장은 
전체 체 계를 멈추지 않는다. 사실상 고장난 디 스크를 가지 는 마디 는 여전히 기 
능을 수행하며 그것 은 원격디 스크에 의하여 기 능을 수행한다. 

• 조작체계 클라스터는 다중 OS 를 가지며 매개는 서로 다른 마디에서 동작한다. 
하나의 체계화상이 기능을 중지 할 때 다른 마디들은 여전히 동작할수 있다. 이 
것은 SMD 와 대조적인것인데 SMP 는 공유기억기에 있는 단일 OS 만 가진다. 이 
고장은 전체 체계를 정지시킨다. 

클라스터 의 유효성포렌샬을 실현하는 열쇠 는 몇 가지 쏘 프트웨 어 기 술이 다. 이 기술은 
역 시 공유부분품을(실 례 로 호상련결) 고도로 유효하게 리용한다. 다른 한편 그것 들은 고 
장의 원인으로 될수 있다. 이 기술들은 9 장에서 론의될것이다. 

확대 가능한 성능 클라스터의 계산능력은 마디들이 보충될 때 중가할수 있다. 또한 
클라스터확대 가능성 은 대 량의 확대 가능성 이 다. 이 것은 SMP 와 클라스터 를 비 교하면 잘 
알아 볼수 있다. SMP 들은 처리기확대가능성체계이고 한편 클라스터는 처리기，기억기， 
디 스크 , 지 어 I/O 장치 까지 포함하여 많은 부분요소들로 확대한다. 성 긴 결 합이면 클라스터 
는 수백 개 마디 로 확대 될 수 있 다. 한편 그것 은 수십 개 이 상의 처 리 기 를 가지 는 SMP 를 만 
드는것이 거의 불가능하다. 

SMP 에서 공유기억(기억 모선 ) 은 병목문제이다. 여러개의 순차 프로 그람들이 하나의 
SMD 우에서 실행될 때 이 프로 그람들은 전체로 독립적이다. 같은 프로 그람 모임인 클라스 
터에서 실행될 때에는 기억기병목문제가 없다. 매개 프로 그람은 하나의 마디에서 실행될 
수 있는데 그 마디 는 국부기 억 을 리용한다. 

이러한 응용들에서 클라스터들은 높은 전체 기억기대역너비와 감소된 기억지연시간 
을 제공할수 있다. 클라스터의 국부디스크들은 역시 거대한 디스크공간으로 집 합된다. 그 
것은 집중화된 RAID 디스크의 디스크공간을 쉽게 릉가할수 있다. 

프로쎄 스와 기 억 I/O 가능성 을 강화하면 클라스터 는 PVM 혹은 MPI 와 같은 몇개의 
개 발된 쏘프트웨어를 사용하여 대규모의 문제들을 풀수 있다. 이것은 13 장에서 론의된다. 

클라스터들은 UP (단일처 리 기), SMP, MPP, 고장체계들을 그림 1-9 에서처 럼 확대 가능 
성과 유효성의 관점에서 비교할수 있다. SMP 들은 확대가능성이 높지 않다. 왜냐하면 경 
쟁 모선과 집 중공유기 억 기 를 사용하기 때 문이 다. 단일 조작체 계 와 공유기 억 기 는 포렌샬측면 
에서 두가지 고장이며 그것은 SMP 의 유효성을 감소시킨다. 

고장체 계 는 유효성 이 높지 만 그것 들을 확대하려 면 많은 비 용이 요구된다. MPP 는 그 
와 반대이다. 그것들은 쉽게 확대될수 있고 여전히 단일체계상을 보존한다. 클라스터들 
은 현재 중간정 도에 있 으며 앞으로 갱 신되 는데 서 고성 능화，높은 유효성방향으로 갱 신 
되고 있다. 
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체게유용성 

그림 1-9. 체계유용성에서 단일처리기, SMP, MPP, 
콜라스터와 그리고 고장허용체계의 비교 


성능 대 비용률 콜라스터는 비용효과성에서 많은 러득을 엄을수 있다. 전통적인 
PVP 고속콤퓨터 와 MPP 들은 수천만딸라로 쉽 게 원가를 소비할수 있다. 다른 한편 같은 
피 크성 능을 가지 는 콜라스터 의 가격 은 하나 혹은 두자러크기 로 더 낮다. 클라스터 들은 
상품화된 요소들로 만들어 지는데 그것의 성능과 가격은 Moore 의 법칙에 따른다. 그 법 
칙에 따르면 클라스터의 성능 대 비용률은 PVP 와 MPP 보다 더 빨리 늘어 나게 된다. 


실례 1.8. 병렬를퓨터와 콜라스터의 성능 대 비용률 

Berkeley NOW 그룹의 두개의 병 렬콤퓨터 와 네개의 NOW 구성의 성능 대 비 용률을 비 
교하여 보면 표 1-8 과 같다. 그 여섯개의 구성은 16 처리기 Cray c90 PVP, 256 마디 Intel 


표 1-8 _ C 90, Paragon 그리고 4개의 NOW 체계의 성능/비용률 


체계구성 

ODE 

(s) 

수송 

(s) 

입력/출력 

(s) 

전체 

(s) 

비용 

($M) 

성능/비용률 

(Mflop/s 

per $M) 

Cray C90 

7 

4 

16 

27 

30 

44 

Intel Paragon 

12 

24 

10 

46 

10 

78 

NOW 

4 

23,340 

4030 

27,347 

4 

0.32 

NOW+ATM 

4 

192 

2015 

2211 

5 

3.3 

NOW+ATM+PIO 

4 

192 

10 

205 

5 

35 

NOW+ATM+ 

PIO+AM 

4 

8 

10 

21 

5 

342 


Paragon MPP, 256RS6000 워 크스테 이 션으로 이 루어 진 망의 네 가지 변종들이 고 환경 화학 
(대 기 화학)응용 Gator 를 실 행하였 다. 

프로그람은 세개의 기 본단계 를 자진다. 계산단계 는 36Gflop 를 수행하여 병 렬로 상미 
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분방정 식모임 ( ODEs ) 을 푸는 단계 이 다. 전송단계 는 통신 이 기 본이 다. I / O 단계 에 서 3.9 GB 
의 자료입구가 조절된다. 

C 90 과 Paragon 의 실행 시 간은 측정 된 자료이 다. 한편 NOW 의 네 변종에 대 한것 틀은 
Berlekey 그롭이 예상하였다. Ethernet 를 사용하여 256개의 워크스테 이션을 련결하고 통신 
규약으로 TCP / IP 를 쓰면 PVM 는 큰 체계를 만들어 내며 그것은 C 90 보다 1000배나 더 느 
리다. 그것의 성능 대 비용률은 138배나 더 낮다. 낮은 수준으로 되는 주되는 요인은 통신 
부가처 리 이며 그것은 C 90 에서 23340 s 와 4 s 이 다. 

E 出 ernet 를 고대 역 너 비 ATM 교환과 교체 하여 비 용을 25%보충하면서 성 능을 10배 로 
개선하였다. 병 렬 FO 가능성을 실현하면 성능은 또 다른 준위 에서 개선된다. 최종적으로 
통신속도를 높이 기 위하여 능동통보를 사용하면 실행 시 간은 한 자리크기 로 감소된다. 적 
절하게 개선하면 클라스터 C 90 보다 더 빠르고 성능 대 비용률은 C 90 보다 7배 더 크다. 
9장과 m 장에서 하드웨 어와 쏘 프트웨 어를 개선하여 어떻게 SSI 클라스터를 개 발하는가를 
고찰한다. 


1.5. 확대가능성설계원리 

확대 가능한 고성능콤퓨터 의 설계는 복잡한 공학적과정 이 다. 지난 20년동안 성 공된 
체계와 실패한 체계로부터 경험과 교훈에 기초하여 네개의 확대가능성설계원리가 창안 
되였다. 

• 독립성의 원리 

• 균형설계의 원리 

• 확대 가능성 을 위한 설계원리 

• 지연시간은페원리 

이 원리들은 다음장들에서 중요한 역 할을 논다. 이 부분에서 우리는 첫 세 가지 원리 
를 설 명 한다. 지 연시 간은페 문제 는 5장에 서 고찰된 다. 

1.5.1. 독립성의 원리 

이 원리는 체계의 구성요소들이 서토서로 독립되도록 해 야 한다는것을 의미한다. 완 
전한 독립성을 달성할수 없으면 의존성은 될수록 작고 명백하게 해야 한다. 여기서 구성 
요소들은 하드와 쏘프트부분품요소들이 다. 

한가지 명백한 리득은 독립적인 확대가능성이다. 즉 우리는 체계를 하나의 구성요소들 
은 다른것들과 독립적으로 개선하는 방법으로 한 차원에 따라 체계를 확대할수 있다. 이것 
을 증가되는 확대성이라고 부론다(증분확대라고 부론다.). 

사용자가 마디 들을 첨 부하여 병 렬 콤퓨터 크기 를 확대 하려 면 조작체 계 나 프로그람작성 
환경을 한급 높이 갱신할것을 요구하지 않는다. 처리기가 다음세대로 갱신되면 체계는 
나머지구성요소를 갱신함이 없이 높은 성능에서 동작할수 있다. 또 하나의 러득은 종이 
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다른것을 확대가능하게 하는것이다. 구성요소가 특정한 구조와 체계에 매이지 않기때문 
에 그것은 다른 체계를 만들 때에 사용될수 있다. 이것은 결과적으로 비용을 절약하게 
한다. 리상적 으로 구성요소는 다음의 특징을 가지고 상품화되고 있다. 

• 나머 지 체 계 에 대 한 표준대 면부를 가지 는 열 린 구성방식을 가진 다. 

• 즉시 구입할수 있는 상품이여야 하며 더 좋기는 특허가 아니고 누구나 가질수 
있어 야 한다. 

• 여러 판매자들이 열린 시장에서 대량으로 판매해야 한다. 

• 상대적으로 잘 어울리며 충분히 오랜 시간동안 많은 사람들이 사용하고 잘 검열 
수정 해 야 한다. 

• 따라서 상품화된 구성요소들은 낮은 비용과 높은 유효성 그러 고 신뢰성을 가져 
야 한다. 


아래에 독립성의 원리를 구체적인 실례를 들면서 설명한다. 

• 알고리 듬은 구성 방식 과 독립 이 여 야 한다. 

• 응용은 가동환경 과 독립 이 여 야 한다. 

• 프로그람작성언어는 기계와 독립이여야 한다. 

• 마디 는 망독립 적 이고 망대 면부는 망위 상독립 적 이 여 야 한다. 

실 례 1.9. 인 터네 트와 IBM SP 2 을 개 발하는데 서 독립 성 

인터네트의 성공은 독립성의 원리의 리익에 대한 실례이다. 인터네트는 호스트호상 
련결하드와 응용쏘프트에 무관계하다. 서 로 다른 형 태의 호스트들이 련결될 때 그것은 
PC 로부터 각이한 판매 자들로부터 구입한 고속콤퓨터 에 이 르기 까지 포괄한다. 호상련결된 
하드는 Ethernet , ICCI 기 타 등등일수 있 다. 사용자들은 Web 를 리 용할 때 각이 한 쏘프트를 
쓸수 있다. 

IBM SP 2 설 계 는 독립성 의 원리 를 도입하였 다. 마디구조는 각이한 통신구조(실례 로 
Ethernet 나 HPS ) 를 쓸수 있게 하였다. 통신구조는 통신하드와 록립적 이며 Ethernet 또는 
HPS 에서 표준 IP 규약 또는 IBM 이 독점 하고 있는 사용자공간규약이 사용될수 있다. 

실 례 1.10. MPI 와 초립 방를퓨 터 

통보문넘기기대면부 ( MPI ) 는 적은 언어특징을 사용하는 좋은 실례이다. MPI 는 서로 
직교하는 네가지 주요개념에 토대하고 있다. 즉 자료형，통신동작，통신기, 가상위상이다. 

네 가지 임의의 조합은 타당하다. 이 직교독립성은 곱하기연산을 요구한다. 몇개의 간 
단한 개념들이 서로 조합될 때 더 많은 가능성을 제공한다. 

초기 의 초립방콤퓨터 들에 대 하여 개 발된 많은 병 렬알고리 듬들은 분명 히 호상접 속의 
초립방위상을 사용하였다. 그것은 그물망집 합적 인 체 계 에서 잘 수행되지 않을수 있다. 현 
재 MPP 들은 호상련결위 상과 독립인 통신알고리 듬이 라는것 을 쓰고 있다. 좋은 실례 는 
IBM SP 체계 에서(집중통신이다 [59] .) 독립성의 원리를 실현하는데 두가지 일반적 인 기술 
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이 리 용되 였 다. 즉 실행과 구성방식의 분리, 표준구성 요소의 리 용기 술을 리 용한다. 


구성방식과 실행 구성방식의 개념은 실행개념과 분리되여야 한다. 구성방식은 콤퓨 
터체계 또는 체계구성요소들로 이루어 진 모형이다. 실행은 모형의 특정한 현실화이다. 
구성방식모형은 사용자와 설계자들이 사용한다. 구성방식은 각이한 실현을 가질수 있고 
그 실현은 각이한 성능들을 가지지만 같은 기능성을 실현한다. 

구성방식개념은 오래전의것이며 그것은 IBM 360의 설계에서 처음으로 제기되고 
성 공적 으로 응용되 였 다. 구성 방식 개 념 에 가까운것 은 가족집 단개 념이 다. 가족집 단의 모 
든 성 원들은 갈은 구조를 공유한다. 그러 나 각이한 성 원들은 각이한 실행과 각이한 성 
능 대 비 용요구에 적 합한 구성 을 사용할수 있다. 또 하나의 널 리 알려 진 관련 개 념 은 
열린 구성 방식 (또는 열린 체 계 )개 념 이 다. 그것 은 구성 방식 의 소유자가(보통 판매 자) 제 3 
자틀이 구성방식을 만들 때 요소들을 변경하고 그것을 다시 제조하며 가동할수 있도록 
한다는것 을 의 미한다. IBM PC 의 성 공은 참으로 기 술적 으로 강력 하고 상업 적 으로 실 용 
적 인 것 이 였 다. 

표준부분품요소의 리용 구성 방식 에 대 한 론의 는 벌써 표준구성 요소의 사용에 대 한 
중요성 을 암시해 준다. 두가지 형 래의 표준이 있다. 즉 

• 첫번째 형 태는 공업규격 l (역시 de facto 표준이 라고 부론다.)이 다. 그것은 보통 
회사에 의하여 개척되였고 다음 말단사용자들에 의하여 사용되고 있으며 대부분 
의 공업들에서 도입되였다. 

• 두번째 형 태의 표준은 민족 또는 국계규격 화기 구 즉 International Standards 
Organization ( ISO ), American National Standards Institute ( ANSI ), IEEE 표준위 원회 등 
에 의해서 창안되 였다. 


주의 

록립성의 원리 를 적용할 때 다음과 같은 두가지 를 주의해 야 한다. 

• 첫째로，병렬콤퓨터들은 계산기술의 첨단에 있다. 이러한 체계에는 잘 알려 져 
있지 않는 중요한 구성요소/기술이 있으므로 완전히 표준은 아니 다. 

• 둘째 로，하나 또는 몇개의 구성요소들을 단독으로 간단히 확대하여 효과적 인 체 
계를 만들수 없다. 

실례로 처리기속도가 빠르다. 느린 기억기모둘 혹은 느린 통신부분체계를 리용하지 
말아야 한다. 모든 부분체계들도 균형화된 체계로 설계해야 하는데 다음의 항목에서 론 
의 한다. 
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1 ■ 5. 2. 균형설계의 원리 

이 원리는 성능병목을 될수록 최소화해야 한다는것을 의미한다. 불균형체계를 설계 
하는것은 피해야 한다. 비록 나머지요소가 빠르다고 해도 느린 요소는 전체 체계의 성능 
을 떨군다. 

더우기 단일점고장을 피해야 한다. 다시 말하면 한 요소의 고장이 전체 체계를 정지 
시키는것을 피해야 한다. 몇가지 러론적 및 실험적결과들에 의하여 균형적으로 설계할수 
있 다. 

Amdahl 의 법칙 응용 프로 그람이 두 형태의 계산 구조로 그롭화된다고 하자. 즉 부분 
와 부분 7이다. 두 부분은 각각 전체 실행시간의 X %, y % 를 취한다. 


Y % 


X 가 개선되여 n 배 더 빨리 실행되면 속도증가 S 는 다음과 같이 표시된다. 


公 = 초기시간/개선된 시간 = 


( X / n )% + Y % 



(1.5) 


이 방정식은 Amdahl 의 법칙으로 알려 져 있는데 다음과 같은 의미를 가진다. 

• 보다 큰 부분 요를 최 량화해 야 한다. 대 부분 경 우에 속도를 증가시 킨다. 

• 가장 좋은 속도증가웃한계로서 i / y 값을 가진다. 

• 느린 부분 r 를 병목이라고 부론다. r 를 최소화해 야 한다. 7를 가능한 작게 해 야 
한다. 


Amdahl 의 규칙 이것은 역시 Amdahl 의 다른 법칙으로 알려 져 있다. 그것은 처리속 
도가 기 억 기 용량과 I / O 속도에 대 하여 균형 화되 여 야 한다는것 을 의 미한다. 보다 명 확하 
게 는 1 MB 의 기 억 용량과 IMb / s 의 I / O 비 률은 초당 백 만개 명 령 ( MIPS ) 계 산속도로 균형 을 이 
루어야 한다는것이다. 

Amdahl 의 규칙은 경험적 이 다. 이처 럼 그것은 반드시 피크속도에 한해서는 관측되지 
않는다. 현재 처리기들은 약 400~1200 Mi / s 의 범위에서 피크속도를 가지지만 많은 기계들 
은 처 려 기 당 400 MB 이 상의 국부기 억 기 를 설 치 하지 않고 있 다. Amdahl 의 규칙 은 피 크속 
도대신에 지속계산속도(실례로 일관하게 Mflop / s ) 가 쓰일 때 최근 체계들에서 더 많이 
관측된다. 

실례 1.11. PetaFLOPS 프로젝트 

PetaFLOPS 프로젝 트 [58 刀로부터 최 근에 예 측되 는 광범 한 과학/공학모의 문제 들에 서 기 
억기요구 ( GB ) 와 속도요구 ( Gflop / s ) 는 다음의 관계를 가진다. 
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기 억 〜속도 3/4 


(1.6) 


따라서 약 30 TB 의 기 억기크기는 Pflop / s 기 계 에 적 당하다. lPflop/s = 1000000 Gflop / s 이 다. 

실 례 1.12. I / O 와 검 사점 문제 들 

I/O 속도요구를 리해하기 위하여 검사문제를 고찰한다. 체계는 주기적으로 기억기내 
용을 디스크에 옮기여 체계가 갑자기 멎는 경우에 사용자들이 작업을 제일 처음부터 시 
작하는 대신 마지막검사점 에서부터 시작할수 있게 할 필요가 있다. 90 s 내 에 끝나도록 덤 
핑 하 려 고 한 다 고 가 정 하 자 . 그 러 면 1 MB 기 억 기 에 대 하 여 디 스 크 대 역 너 비 를 
l /90 MB / s =0.9 MB / s 로 해야 한다. 그것은 Amdahl 의 규칙에 가깝다. 보다 큰 체계에 대하여 
검 사점시 간은 더 길 다. 덤 핑하는 시 간을 900 s 라고 하자. 그러 면 1 GB 기 억 을 가지 는 기 계 
에 대 하여 디스크대 역 너 비를 1000/900=1. IMB / s 로 하여 야 한다. 100 GB 기 억 에 대 하여 디스 
크 I / O 요구는 lOOMB / s 이상으로 중가한다. 

50%규칙 식 (1.4) 로부터 병 렬프로그람의 성 능은 부하불균형，병 렬 성 부가처 리，통 
신시동부가처 러바이 트당 통신부가처 리 에 의하여 감소될수 있다. 경험 에서 얻은 법 칙은 
처 리 인자가운데서 매개 가 50%이 하의 인자에 의하여 성능을 낮출수 있으면 병 렬체 계는 
균형된다는것이다. 이 규칙을 사용하여 다양한 부가처리인자들에 관한 기대되는 한계 
를 평가할수 있다. 이것은 3장에서 취급될것이다. 

실례 로 표 1-9 는 통신시동부가처 러。에 대 하여 각이한 속도조건밑 에서 요구되 는 값 
을 렬거 한다. 현재 통보문넘 기 기콤퓨터 들은 시동부가처 리 가 너무 커서 미세하게 작은 병 
렬응용을 지원하지 못한다. 

일부 Cray 벡 토르고속콤퓨터 ( PVP ) 를 제외 하고 점대점통신에서 는 오직 각 ts 의 작은 / 0 
을 가진다. 


표 1-9 요구되는 ■신, 시동, 부가처리값 


Grain 크기 w 

단일 마디 

속도 P x 

。은 아메 값보다 
작아야 한다 

100 flop 
(Fine Grain) 

4 Mflop/s 

25jxs 

20 Mflop/s 

5 \x$ 

100 Mflop/s 

1 JJ.S 

1000 flop 
(Medium Grain) 

10 Mflop/s 

loops 

50 Mflop/s 

20^is 

250 Mflop/s 

4 (is 

10000 flop 
(Coarse Grain) 

10 Mflop/s 

1000 |i$ 

100 Mflop/s 

100 

1000 Mflop/s 

i<His 
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통보문크기 a*w 또한 립 도 씨가 크면 대 역 너 비 디=1/4；는 보다 중요한 인자로 된다. 
표 1-10 은 속도 馬와 통신 대 계산률 대를 각이하게 가정한데 기초하여 &의 기대되는 
값을 렬거한다. 


실 례 1.13. PDE 풀기 에 서 격 자 

수값병 렬편미방 ( PEE ) 풀기는 2차원문제 들을 위해서 다음의 도식 을 사용한다. 자료령 
역은 N * N 자료점을 가지는 2 D 격자이다. 매 자료점은 XB 의 기 억을 요구하며 전체 기 억요 
구는 N 2 *B 이 다. 알고리 듬은 일 정한(실 례 로 10000) 시 간단계 를 수행한다. 매 단계 에 서 격 
자점 은 Y +10 p 계 산을 요구하며 그것의 네 개의 린접 점 들에 접 근한다. 

단일처리기를 리용하는 실행시간은 

T x = YN 2 t f (1.7) 


이다. 


표 1-10 요구되는 톰신, 대역너비값 



단일매 융 

자 0 은 아테 값보다 

통신대계산률 a 

속도 P, 

커 야 한다 . 


4 Mflop/s 

0.04 MB/s 

0.01 B/flop 

20 Mfiop/s 

0.2 MB/s 


100 Mflop/s 

IMB/s 


10 Mflop/s 

IMB/s 

0.1 B/flop 

50 Mflop/s 

5 MB/s 


250 Mflop/s 

25 MB/s 


10 Mflop/s 

10 MB/s 

1 B/flop 

100 Mflop/s 

100 MB/s 


1000 Mflop/s 

1000 MB/s 


«- 처 리 기 MPP 에 서 자료령역 은 «개 의 평 방구역 으로 나눌수 있 으며 매 개 구역 은 
iV 2 /« 개 의 격 자점 을 포함하는 ( N / yf ^ l ) *( N / yf ^ i ) 부분령 역 이 다. 매 시 간단계 에 서 처 리 기 
당 계산작업부하는 KV 2 /« 이다. 매 처 리기는 네개의 매 린접점으로부터 XN 、[; B 《>\ 엄어 
진 다. 

따라서 n _ 처 리기기 계 에서 실행시 간은 근사적 으로 

YN 2 
= - ■+ 
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이 다. 상수인수 8은 매 처 리 기 가 네 개 의 매 린접 점 과 통보를 주고받기 해 야 하는데 로부터 
나온다. 속도증가인자는 다음과 같다. 



8호 0 


SXt c 

YNtf、fn 


(1.9) 


그림 1-10 에서 네가지 서로 다른 병렬를퓨터들에 대한 속도증가곡선을 보여 준다. 

(1) 첫째 기계는 뉴 555 사 요와 r M =lMB/s 를 가지는 느린 통신망으로 련결된 50Mflop/s 
처 리기 들을 가지 고 있다. 많은 점대 점통신을 위해서 Ethernet 와 호환성을 가 
진 다. 문제크기 가 N=102 일 때 기 계 A 는 아주 작은 속도증가를 보여 주는데 
(그림 1-10 의 낮은 부분에 곡선으로 표시된다. ) 128 개 처리기에 대하여 m 이 
하이다. 

(2) 그러 나 속도중가는 문제크기 자이 8소로 8배 증가하면 급격 히 개 선된 다(그림 
1-10 에서 ♦ 으로 표시된다.) 이 것은 립도 씨를 증가시키 며 통신 대 계산비 a 
를 감소시킨다. 

(3) 셋 째 기 계 (그림 1-10 에 서 A 으로 표시 된)는 100-Mflop/s 처 리 기 들을(첫 기 
계 보다 2배 빠르다) 가지 는데 그것은 같은 망에 의해서 련결된다. 이 불 
균형체 계설계 로 하여 속도증가는 "=809 에 대 하여 떨 어 진 다. 

(4) 마지막기계(그림 1-10 의 꼭대기에 곡선으로 표시된)는 기계 B 보다 더 균형을 

이루며 그것은 f 0 =46/zs, 를 가지는 IBM SP2 과 류사한 망으로 련결 

된 100Mflop/s 처 러 기들을 가지 고 있 다. 이 균형 화된 설계 는 4 개 의 병 렬콤퓨터 
들가운데서 제일 좋은 성능을 가진다. 



2 4 8 16 32 64 128 

때陶#수 

그림 1-10. 4개 병 렬콤퓨터 에서 2 DPDE 풀기의 속도중가 
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1 • 5. 3. 확대가능성들 우 I 한 설계 

이 원리는 확대가능한 체계를 설계할 때 확대가능성은 후에 생각해 볼것으로 하지 
말고 시작부터 주되는 목표로 고찰해야 한다는것을 의미한다. 체계는 고성능을 계공하 
기 위해 확대될수 있거나 비용효과성을 더 크게 하기 위하여 축소할수 있도록 준비되 
여야 한다. 확대가능성을 설계하는데 많이 사용하는 두가지 방법론은 여유설계와 역호 
환성 이 다. 

여유설계 여유설계기술을 사용하면서 체계는 현 세대 체계의 최소요구를 겨우 만족 
하지 않도록 설계한다. 설계는 앞으로 체계를 확대할 때 개선되는것을 예견하는 보충 
적인 특징들을 포함해야 한다. 이 특징들은 현재 체계에서 의의가 없지만 그것은 앞으 
로 개선되는 체계에로 원활하게 이행할수 있게 한다. 

실례 1.14. 현대적인 처리기설계에서 주소화공간 

처 리 기 를 설 계 하는데 서 가장 중요하게 고려 해 야 할것 의 하나는 처 리 기 주소공간 
크기이다. 바꾸어 말하면 처리기가 직접 접근할수 있는 byte 위치의 수이다. Gordon 
Bell 의 말을 인용하면 작은 주소공간은 후에 쉽 게 고쳐 지 지 않는 구성 방식설 계의 
오유이 다. 

현대적인 처리기들은 64bit 주소공간 또는 2 64 =11.8xl0 19 B 을 리용한다. 이 거대한 주 
소공간은 오직 32b(4-GB) 를 지 원하는 UNIX 에 의 해서는 충분하게 리용되지 않는다. 이 
주소공간에서의 여유설계는 조작체계 가 64BUNIX 에 로 확대될 때 아주 쉽게 넘 어 가게 
한다. 


공간 

반례 로서 초기 IBM PC 에서 사용된 Intel 8086/8088 주소처 리 기 는 20bit 로 한정된 
1MB 주소화공간을 가지 고 있 었 다. DOS 는 Kernel 과 사용자쏘프트 640KB 의 한계 를 설정 한 
다. 이 640KB 한계 는 콤파일 러작성 자들과 응용쏘프트개 발자들에 게 많은 문제 들을 제 기 
한다. 

DOS 프로그람이 640KB 한계를 넘을수 없기때문에 쏘프트설계자들은 정교한 기술(실 
례로 고대역기 억기，확장기억기，연장기억기)을 반영하여 다음세대처리기 (Intel 286, 386, 
486, Pentium Pro) 에서 제공되는 거대한 주소공간에 대 한 우월성 을 가지게 해 야 한다. 

실례 1.15. IBM RS 6000 SMP 봉사기 들에서 여 유설계 

IBM RS6000SMP1 는 세 대 확장가능성 을 위 하여 여 유설계 되 여 있 다. 실례 로 SMP 의 첫 
세대는 PowerPC6()l 처 리기 에 토대하고 있다. 그러 나 체계 나머지부분품요소기 억 FO, 전원, 
선풍기, 시계회로들은 PowerPC604 와 620 처리기 두 세대에 쓸수 있게 설계되고 있다. 

스위치의 매 처리기포구는 600MB/S 의 대역너비를 가지며 6()1 에서 요구하는것보다 
더 크다. 이 여유설계특징들은 SMP 체 계의 미 래세 대들에서 간단히 처 리의 수준을 높이는 
것 에 의해서 확대 하기 쉽 게 한다. 
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역호환성 여유설계기술은 현재체계를 설계할 때 체계를 확대하기 위한 요구들을 고 
찰해 야 한다는것 을 의 미 한다. 역 가능성 이 라고 부르는 기 술은 하드와 쏘프트부분요소들을 
설계하는데서 체계를 축소하는 요구를 고찰해야 한다. 확대된 요소들은 이전 또는 축소 
된 체 계 에 서 도 사용할수 있 어야 한다. 실 례 로 

• 새로운 처 리기는 이전 처 리기 들에서 2진코드들을 실행 할수 있어 야 한다. 

• „마디 우에서 실행되 게 설계 된 병 렬 프로그람은 단일마디 («=1)우에 서 축소된 입 구 
자료모임을 가지고 실행될수 있어야 한다. 

• 고속를퓨터 를 위한 프로그람은 워 크스테 이 션우에 서 실 행 될수 있 어 야 한다. 또한 
입 구자료모임 은 워 크스테 이 션의 제 한된 주기 억 에 맞아야 한다. 

• 조작체계의 새로운 변종은 쓸모 없는 모든것들을 제외하고 모든 이전 기능들을 
보존해 야 하는데 그것 은 명 백 하게 문서 화되 여 야 한다. 


실례 1.16. 처리기에서 자료모선너비의 호환성 

현대 처리기들의 CPU 모선은 64 bit 자료모선을 가진다. 어떤 처리기들은 역호환성을 
지 원하는데 그것은 64 bit 처 러 기가 보다 작은 자료모선너 비들 (32, 16, 8 bit ) 을 가지는 주기 
판에서 사용되도록 한다. 

이 역호환성은 몇개의 조종판들을 설정하여 달성한다. 처 리기 가 기 억기읽기를 할 때 
두개의 모선주기(하나는 주소에 보내고 다른것은 기 억기 로부터 자료를 읽는다.)를 요구한 
다고 하자. 읽기가 8 bit 주기판에서 실현되면 처리기의 설정은 자동적으로 9개의 모선주기 
안에서 기 억기로부터 1 B 자료를 읽는다. 

실례 1.17. IBM SP 체 계들에서 병 렬 조작환경 

IBM 병 렬조작환경 ( POE ) 은 IBM ScalableParallel 콤퓨터들 ( SP 1 과 SP 2) 에 대 하여 설계 되 
였다. 여기서 사용자응용은 여러 SP 마디우에서 실행된다. POE 는 역가능성을 다음과 같이 
지원 한다. 

• POE 는 한마디 에 서 완전히 실 행 될 수 있고 그것 은 여 러 러용자과제 들이 한마디우 
에서 실행되게 한다. 

• 그 마디 는 SP 마디 가 아닐 수 있 다. 어 떤 RS 6000 워 크스레 이 션 일 수 있 다. 

• POE 는 IBM UINX ( AIX ) 의 꼭대기에서 실현된다. 따라서 현재 UNIX 프로그람들 
은 POE 에 서 리용할수 있 다. 

경 고 역 호환성은 이 전 체 계 의 모든 특성들이 유지 되 여 야 한다는것 을 의미하지 않는 
다. 쓸모 없는 특징들은 제거해 야 한다. 여 유설계 기 술을 적 용하는데서 초래 되 는 비 용을 
고려해 야 하며 앞으로에 대 하여 너 무 많이 예 견하지 말아야 한다. 

때때로 여유설계는 실제적으로 전체 개발과 생산비용을 감소시킨다. 이것은 Intel 의 
다음실례로부터 설명된다. 
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실례 : 1.18 Intel 486 DX 와 486 SX 

Intel 은 80486 극소형 처 리기를 발표할 때 두가지 모형 즉 486DX 와 486SX 를 제기 하였 
다. 내부적 으로 두 소편은 동일하다. 차이 는 오직 DX 소편의 류점단 (FPU) 이 SX 소편에 서 
기능하지 못하게 되여 있고 류점능력을 요구하지 않는 사용자들에 대해서 판매되였다는 
것 이 다. 

FPU 에 대 한 소편령역 이 SX 소편우에서 리용하지 못한다고 해 도 이 여 유설계 로 하여 
Intel 은 두 소편을 설계하지 않아도 된다. 두 소편의 결합판매는 설계와 생산비용이 대단히 
줄어 들게 하며 따라서 리윤이 크다는것을 보여 주었다. 

1.6. 참고문헌주해와 련습문제 

병렬처리기들은 역시 Flynn[245] 와 Hennessy, Datterson[305] 에서 취급된다. Hwang[327], 
Lenoski 와 Weber[406], Culler[181] 들은 확대가능한 다중처리기를 취급하고 각이 한 령 역에 
대 해서 취급되 는 내 용을 강조하고 있다. 체 계확대 가능성 의 론의 는 Hill[308], Rattner[513], 
Smi 出 [569] 가 준다. Ni[464] 병 렬를퓨터를 층별로 분류한다. Almasi 와 Gottieb[2 이은 1994 년 
까지 고도의 병렬계산체계들을 넓은 범위에서 포괄한다. 

를퓨터 로 이루어 진 클라스터의 기본개 념은 Pfister[49 刀에서 소개된다. 망기초클라스 
터 계 산에 관해 서 는 두가지 문제 가 Journal of Parallel and Distributed computing (1997 년 2 
월， 6 월)에서 출현하였다. 병렬 및 클라스터계산에서 최근 앞선 내용은 역시 Bell 과 
Gray[71], Davy 와 Dew[19()] 에서 론의된다. 

확대 가능설계원리 들은 Hwang 과 Xu[333], Herris 와 Tophaw[29 刀의 론문에서 취 급된다. 

PRAM 모형 은 Fortane 과 Wyllie[24()] 에 의 하여 제 안되 였 다. BSP 모형 은 Valian [623] 에 
서 서 술된 다. 단계병 렬 모형 은 Xn 과 Hwang[65 刀에 서 주었 다. 

Amdahl 의 법칙은 처음에 [29] 에서 주었다. 

Gordon Bell 은 현대기 술에 기 초하여 고속콤퓨터 와 MPP 들을 평 가하였 다. [67]~[71] 확 
대 가능성 콤퓨터 가동환경 들은 IBM[335]~[341], DEC[191]~[198] Cray Research 的과 [174| 
SGI[547]~[550], Sun Microsystems[ 198]~[600], Microsoft' s Wolfpack[573], Convex/HP[165] 와 
[166] 들에 제기되였다. 이 체계들은 다음장들에서 연구될것 이다. 

문 제 

문제 1.1 확대 가능성 에 관한 다음 용어들을 정의하고 구별하시오. 

• 기계크기에 관한 확대가능성 

• 문제크기에 관한 확대가능성 

• 자원확대가능성 

• 세대확대가능성 

• 이종확대가능성 
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문제 1.2 다음의 추상병 렬모형 들을 비 교하시 오. 그것 들의 차이 , 상대 적 우점，생 활력 
있는 병 렬 콤퓨터 와 응용을 모형 화하기 위한 한도들을 론하고 평 가하시 오. 


• PRAM 모형 

• BSP 모형 

• 단계병렬모형 

문제 1.3 다음 다섯개의 병렬구조에서 매개의 고유한 특징을 두개 이야기하시오. 고 
유한 특징은 임의의 다른 모형들에서 볼수 없다는것을 론하시오. 

• 병렬벡토르처리기 (PVP) 

• 대칭다중처리기 (SMP) 

• 대용량병렬처리기 (MPP) 

• 콜라스터워크스테이션 (COW) 

• 분산공유기억 (DSM) 기 계 

문제 1.4 현재의 병 렬콤퓨터들에서 병 렬실행방식 에 대 한 다음의 질문에 대 답하시오. 

• SIMD,MIMD,SDMD, MDMD 실행방식의 우점 과 결점 은 무엇 인가 

• SIMD 콤퓨터우에서 MmiD 병렬응용은 어떻게 실현되는가. 도식을 설명하는데 구 
체적인 실례를 사용하시오. 

• 오직 SDMD 방식을 지원하는 콤퓨터우에서 MDMD 병렬응용을 어떻게 실현하는 
가. 도식설명에서 구체적인 실례를 사용하시오. 

문제 1.5 독립성의 원리에 관하여 

• 충분히 확대 가능한 체 계 에서 가능한 구조특징의 독립쌍을 렬거하시 오. 

• 같은 구조의 다중실현으로부터 구조의 개념을 설명하고 어떻게 분리하는지 실례 
를 들어 설명하시오. 

문제 1.6 확대 가능병 렬 및 클라스터계 산과 관련하여 다음의 성 능을 정 의 하시 오. 

• 병렬실행시간 

• 작업부하와 지속적인 속도 

• 병렬성과 호상작용부가처리 

• 점대점 및 집합적통신 
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문제 1.7 다중처리기, 다중콤퓨터, 콤퓨터클라스터에 관하여 

• 다중처리기와 다중공퓨터를 자원공유, 구조，처리기사이 통신에 기초하여 구별하 
시오. 

• UMA, NUMA, COMA, DSM, NORMA 기 억모형사이의 차이를 설명 하시오. 

• 자료콤퓨터로 이루어 진 고전적인 망에서는 볼수 없는 클라스터의 보충적인 기 
능특징은 무엇 인가? 

• 일반적 인 SMP 봉사기 에 대 한 클라스터체 계의 우월성 은 무엇 인가? 

문제 1.8 PRAM 모형 을 씨 서 현재 의 병 렬 를퓨터 들을 모형화하시 오. 

• 어떤 PRAM 변종이 SIMD 기계를 더 좋게 모형화할수 있는가? 어떻게 모형화하는 
가 설명하시오. 

• 어떤 PRAM 변종이 공유기억 MIMD 기계 를 더 잘 모형화할수 있는가? 

• 오늘 만들어 져 있는 대 부분의 병 렬콤퓨터 들을 모형화하는데 서 PRAM 의 불충분 
한 점을 평가하여 보시오. 

문제 1.9 병 렬를퓨터 의 속도증가성 능을 고찰하시 오. 

• Amdahl 의 법칙의 공식을 이야기하고 그것의 의미를 대략적으로 설명하시오. 

• Amdahl 의 규칙 이 란 무엇 인가. 병 렬 체 계 설 계 에 어 떻 게 적 용하는지 설 명 하시 오. 

• 자주 사용하는 콤퓨터체 계 두개를 검 열하고 Amdahl 의 규칙 이 나오는지 보시오. 

문제 1.10 확대가능성 또는 클라스터극소처리기와 다중콤퓨터체계들을 만드는데서 
다음설 계 방법 들을 사용하시 오. 

• 두개의 실례설계를 써서 여유설계가 어떻게 확대가능성을 강화할수 있는가 설명 
하시 오. 

• 확대가능콤퓨터를 만드는데서 역가능성은 왜 중요한가? 

• 고도로 유효한 클라스터체계에서 검사점성능은 무엇인가? 

• 다중콤퓨터콜라스터 들과 분산콤퓨터 들에 서 마디복잡성，마디조작체 계，마디사 
이통신，일 정작성 기， SSI 에 대 한 지 원, 체 계유효성 , 안전조종의 차이 를 비 교하 
시오. 
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제 2 장. 병렬프로그람작성의 기초 


병 렬 프로그람작성 은 주어 진 알고리 듬으로부터 병 렬 프로그람을 구성 하는 작업 이 다. 
그것은 알고리 듬설계 자와 콤퓨터체 계구성 방식설계 자들의 폭 넓은 호상작용을 연구한다. 
이것에 대하여 H . J . Siegel 등 [256] 이 강조하였다. 

일반적 인 고성능계산분야에서 두개의 가장 중요한 분야는 구성방식과 알고리듬이 다. 
그러나 그것들사이의 대면부도 역시 중요한 문제 이 다. 

여기서 우리는 병렬프로그람작성의 상태를 고찰하고 병렬성，프로쎄스호상작용，병렬 
프로그람들의 기 본성 질 들에 관한 표현들을 검 토한다. 모든 실 례코드들에 서 다르게 표시 
되 지 않는 한 * 는 곱하기기 호를 표시 한다. +는 하나씩 증가한다는것 을 의 미 하며 x %7 는 x 
mod 7을 의미 하고 x == : y 는 조건검사 즉 c 표기 법 에서 < x 는 : y 와 같다>를 가리 킨다. 표기 법 
x : =5는 변수 ; c 에 5를 배 정하는것 을 의 미한다. 

2.1. 병렬프로그람작성의 개요 

병 렬프로그람작성 이 유감스러운 상태에 있다는것은 일반적 으로 일치한 의견이 다. 

• 병렬쏘프트웨어개발은 병렬하드웨어가 앞선데 비하여 멀리 뒤떨어 져 있다. 

• 순차형 쏘프트웨 어 와 비 교해 보면 오늘의 병 렬 체 계 쏘프트웨 어 와 응용쏘프트웨 어 
는 량적으로 적고 기능적으로 원시적 이다. 

이러한 경향은 여러가지 리유로 하여 계속될것이며 그것은 앞으로도 계속 론의될 전 
망이 보이고 있다. 여기서는 병렬하드웨어와 병렬쏘프트웨어사이의 간격을 좁히는 최근 
발전에 대해서 고찰한다. 

2. 1 • 1 • 병렬프로그람작성이 왜 어려운가 

병 렬쏘프트가 뒤떨어 진 주되는 리유는 병 렬프로그람작성 이 순차프로그람작성 보다 
훨씬 복잡하고 지적 인 과정 이 라는것 이 다. 그것은 첫째 로，병 렬프로그람은 순차프로그람작 
성을 포함하고 있기때문이다. 그것은 순차프로그람작성의 모든 문제들을 포함하며 나머 
지 문제는 보다 지적으로 해결해야 할 대단히 많은 문제들을 더 가지고 있기때문이다. 

둘째 로, 순차프로그람작성 에 는 오직 하나의 기 초모형 (Von Neumann ) 이 있 지 만 한 
편 병 렬프로그람작성 에 는 많은 각이한 모형 들이 있다. 셋 째 로, 를파일 러，프로필리 와 
같은 쏘프트환경 도구들은 순차프로그람개 발에 서 훨 씬 앞서고 있다. 

넷째로，병렬프로그람작성보다 순차프로그람작성에서 보다 많은 사람들이 실제로 체 
험 하고 있으며 또한 아주 오랜 기 간 사용하고 있다. 다른 말로 말하여 순차프로그람작 
성은 보다 잘 어울리며 축적된 지식의 거대한 기지를 가지 고 있다는것 이 다. 그 기지는 
과거 에 배 운 과정 들과 오유찾기 를 포함하고 있다. 병 렬 프로그람작성 을 그림 2-1 의 실 례 
에서와 같이 사용자의 관점에서 비교해 보자. 
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순차프로그람작성 사용자에게 응용프로그람이 요구된다고 하자. 순차기계 에서 그러 
한 응용이 존재하고 수정된다. 더 좋기는 원천코드(실례로 C 또는 포트란)가 유효할것이 
다. 사용자는 오직 그 코드를 다시 를파일하여 목표기계에서 그것을 실행한다. 응용이 개 
발되자면 사용자는 목적에 부합될수 있는 현재알고리듬을 찾아야 할것이다. 알고리듬이 
없으면 사용자는 몇가지 프로그람작성도구들의 도움을 받아야 한다. 

첫째 로，오래 동안 수립되 였고 [16] 알고리 듬을 설계하는데 서 사용자를 안내할수 있는 
몇가지 알고리듬견본이 있다. 둘째로, 꼭 하나의 기초모형 Von Neuman[Z71] 이 있어서 종 
합적 으로 알고리 듬적 견본들，프로그람작성언어 들 그리 고 콤퓨터 가동환경 들을 지 원한다. 
마지막으로 많은 순차언어들이 제안된것이다. 따라서 적은 수의 표준언어들이 있어서 즉 
Fortran 은 과학계산에서 지배적 이며 코볼과 4 세대 언어들 (4GL) 은 자료처 리 에서 널리 쓰이 
며 C 는 어디서나 사용된다. 

순차프로그람작성 도구는 일반적 이 다. 실례로 C 언어는 모든 알고리 듬견본들을 지원할 
수 있고 모든 계산가능한 함수들을 규정할수 있다. C 프로그람이 개 발되 였다면 임의의 순 
차콤퓨터 에서 리용할수 있다. 다른 말로 말하면 순차프로그람작성은 이 질적확대 가능하다 
(1.2.3). 순차프로그람작성 도구들은 콤퓨터 가 진화되 는 많은 세 대 들에서 일정하다(다시 말 
하면 세 대 확대 가능하다.). 

Fortran 77 은 1977 년에 표준화되였고 오늘 여전히 널리 쓰이고 있다. 오늘 사용되는 C 
언어는 20 년전에 발명 한 원시 변종에 비 하면 약간 변화되 였 다. Von Neuman 모형 은 40 년이 
상 많은 변경없 이 사용되 여 왔다. 그것 의 일 반성 과 안정 성 으로 하여 도구들은 널 리 리용 
된 다. 그것 들은 각이한 콤퓨터 가동환경 에 있는 각이한 응용을 가지 고 오래 동안 검 사되 여 
왔다. 사람들은 그것들을 어 떻게 잘 사용하며 오유을 피하겠는가를 연구하고 있다. 

병렬프로그람작성 병렬프로그람작성은 모든 측면에서 미약하다. 병렬코드가 어떤 기 
대되는 응용에 대 하여 존재 한다는 가망은 없다. 지 어 그렇 다고 하면 사용자의 병 렬콤퓨 
터(실례로 MPP) 에 대하여 사용할수 없다. 왜냐하면 병렬코드는 다른 구성방식에 대하여 
(실례로 SMP 봉사기) 원시적으로 작성되기때문이 다. 

병 렬프로그람작성 은 성 숙되 고 일 반적 인 안정한 도구들의 지 원을 가지 지 못한다. 병 
렬알고리 듬견본들은 여전히 잘 리해되지 않으며 널 리 도입되지도 않고 있다. 

단일 한 일 반적 인 기 계모형대 신에 두 준위 의 모형 이 있는 매 개 준위 에 는 많은 각이한 
모형들이 많다. 

프로그람작성모형 은 프로그람작성 자가 병 렬프로그람을 작성할 때 보고 사용하는것 이 
다. 특정모형 은 특정한 병 렬 콤퓨터 가동환경 에 의하여 제 공되 는 가장 낮은 준위 의 사용자 
가 볼수 있는 프로그람작성모형 이 다. 다른 프로그람작성모형 들은 이 특정모형 에서 실현 
될수 있 다. 실례로 SMP 인 SGI Power Challenge 우에서 특정 모형은 공유변수모형 (실례로 
SGI Power6) 이 다. 그러 나 자료변경 (실례 로 HDF) 과 통보문넘 기 기 (실례 로 MPI) 는 그우에서 
실현될수 있다. 

현재 체 계 들에 서 사용되 는 대 부분의 병 렬 언어 들은 Fortran 이 나 C 의 몇 개 의 환경 이 다. 
프로그람작성 과 특정준위 에서의 이 러한 병 렬언어들은 순차적 인것들보다 세대확대가능성 
과 이질확대가능성이 훨씬 낮다. 따라서 한 병렬가동환경에서 개발된 병렬프로그람을 다 
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옹 I : 







그림 2-1. 병 렬 프로그람작성 과 순차프로그람작성 의 비 교 
른 매개의 병렬콤퓨터들에 이식할수 있다는 가망은 적다. 

병 렬프로그람작성 에서의 진보 앞에서 와 같은 비 관적 인 평 가에 도 불구하고 지 금까지 
병 렬프로그람작성분야에 서 많은 진보가 이 룩되 였 다. 

많은 병 렬알고리 듬들이 개 발되 였 다. 그 대 부분이 비 현실적 인 PRAM 모형 에 토대 하고 
있지 만 몇 개 는 실제 적 인 리 용에 적 용할수 있 다. 

현재 적 은 수의 간단한 병 렬알고리 듬견 본들이 개 발되 고 그것 들을 받아 를이 고 있 다. 
이 견본들에 대하여서는 12.1.1 에서 고찰한다. 

특정모형 들이 두개 의 모형 에 로 수렴 하고 있다. 즉 PVP 와 SMP , DSM 에 대 한 단일 주 
소공간，공유변수모형 과 MPP 와 클라스터 를 위 한 다중주소공간，통보문넘 기 기모형 에 로 수 
렴한다. SIMD 모형 은 일 반목적 의 계 산에서 없 어 졌 다. 그러 나 그것 은 여 전히 특수한 목적 
즉 신호，화상，다매 체프로쎄 스와 같은 매 몰형응용들에 서 여 전히 쓸모 있 다. 

고수준병 렬 프로그람작성모형 들은 세 가지 표현모형 즉 자료병 렬 (실 례 로 HPF ), 통보문 
넘 기 기(실례 로 PVM 과 MDI ), 공유변수(실 례 로 ANSI X 3 H 5) 모형 들에 로 수렴 하고 있 다. 
또한 사용자가 순차프로그람을 작성 하고 콤파일 러병 렬성 에 의하여 암시 적병 렬성 을 끌 
어 내 는 모형 도 있다. 이 모형 .은 간단하게 12.2.1 에 서 고찰하고 구체 적 으로는 4편에 
서 론의할것이다. 
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처리량 병렬쏘프트웨어개발에서 빠른 진보가 있지만 미래를 바라 볼수 있는 순차응 
용에 비하면 병렬응용은 매우 적 다. 병렬콤퓨터체계(하드웨 어와 쏘프트웨어를 다 포함하 
는)가 효과적으로 다중，독립，순차일감들의 체계처리량을 증가시키려면 순차프로그람들 
을 효과적으로 지원해야 하며 동시에 단일병렬응용의 응답시간을 감소시켜야 한다. 

고성 능병 렬 콤퓨터 를 단일 체 계 영 상을 가지 는 거 대 한 워 크스레 이 선으로 보는것 은 많은 
사용자들이 프로쎄 스강화의 우점과 다중순차일감을 실행 하기 위한 기 억저축가능성을 가 
질수 있게 한다. Gregory Pfister 는 이 방식 을 직 렬 프로그람병 렬 체 계 ( SPPS ) 모형 [49 刀이 라고 
부르고 있다. 역시 처리량과정으로 알려 져 있다. 

2. 1. 2. 병렬프로그람작성환경 

사용자의 견지 에 서 전형 적 인 병 렬 처 리 체 계 는 그림 2-2 에 서 보여 준것 과 같은 구성방 
식 를 가진 다. 알고리 듬은 우선 응용문제 를 풀기 위해 개 발된것 이 다. 그다음 사용자 (프로 
그람작성자)는 그 알고리듬을 고수준언어(원천 코드) 로 실현할것을 요구한다. 알고리듬도， 
원천 코드도 명시적으로 병렬일 필요는 없다. 

그다음 콤파일러는 원천코드를 어떤 병렬가동환경 에서 실행 하기 위한 특정코드로 변 
환하는데 그것 은 조작체 계 와 기 초적 인 병 렬콤퓨터하드웨 어 를 포함한다. 아쎔 블러나 련결 
편집 기 와 같이 원천코드를 변환하는데 포함되 는 모든 쏘프트웨어 를 가진 콤파일 러 라는 
용어를 리용한다. 전처 리기는 원천 대 원천변환기 이다. 그 실례의 하나가 널리 알려 진 
C 전처 리기 CPP 이 다. 


(순차 혹은 병렬)응용알고러듬 



그림 2-2. 병렬처리체계의 구성요소 


어 떤 프로그람작성언어 는 실행시 간지 원체 계 를 가지 게 된다. 그것 은 몇 가지 필수적기 
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능을 사용자코드에 제공하여 적재되는 부분루린의 모임이다. 그것들은 사용자코드가 실 
행을 시작할 때의 초기화，사용자코드가 끝난 다음의 Clean up , 자료대상의 배정과 배정 
취소와 같은것이다. 실행시간지원부분은 서고에 의해 제공된다. 서고는 자주 사용되는 몇 
가지 특정규칙에 따라 를파일된 부분프로그람의 모임인데 그것은 몇가지 필수적인 기능 
을 실현할 때 콤퓨터자원과의 명백하고 고수준인 대면부를 제공한다. 

서고는 어떤 언어에 따르게 할수 있다. 표준 I / O 를 다루는 C “ stdeo ” 서고를 들수 있 
다. 서고는 또한 조작체계를 동반하는데 실례로 Solraris 의 thread 서고를 들수 있다. 이 서 
고는 다중스레 드기 술을 제 공한다. 그것 은 또한 MPI 와 같이 언어 독립 과 가동환경 독립일 수 
있는데 보아는 병 렬 프로쎄 스의 통보문넘 기 기모형 을 지 원 한다. 

서 고부분프로그람은 사용자코드와 실행시 간전에 혹은 실행시 에 동적 으로 사용자코드 
에 련결될수 있다. 

환경 도구 도구라는 용어 는 지 금까지 각이한것 을 의 미하는데 리용되 여 왔다. 가장 넓 
은 의미에서 도구는 사용자응용의 개발과 실행을 돕는 어떤 하드웨어와 쏘프트웨어유털 
리터를 의미한다. 모든 이런 도구의 모임은 집합적으로 프로그람작성환경(또는 간단히 
환경)으로서 취 급한다. 

도구의 실례 들은 조작체 계，유털리리，프로그람작성언어 들, 콤파일 러 들, 실행시 간서고 
들 등이 다. 

환경도구들은 보통 조작체계 또는 프로그람작성환경과 관련되지 않은 도구들의 모임 
이 다. 환경도구들은 다음과 같은 형 태들을 포함한다. 

• 일감관리도구들은 체 계 자원을 계획 하고 사용자의 값을 관리하는데 사용된다. 실 
례들은 망대기체계 ( NS ) 와 부하공유 Fdcility ( LSF ) 이다. 이러한 도구들은 역시 부 
하균형 화와 검 사점기 능을 제 공한다. 

• 오유수정도구는 병렬순차응용들에서 의미적오유를 찾아 내고 그 위치를 지정하 
는데 사용된다. 

• 성능도구들은 성능병목을 식별하도록 사용자응용을 조종하는데 사용되며 그것은 
또한 성능검 열수정으로 알려 져 있다. 

2. 1. 3. 병렬프로그람작성방법 

실제적인 병렬를퓨터들에서 널리 사용되는 병렬프로그람작성의 모형에는 현재 네가 
지가 있다. 즉 암시적，자료병렬，통보문넘기기，공유변수모형이다. 이 모형들은 12.2 와 4 
편에서 론의한다. 이 병 렬프로그람작성모형들은 실제적 인 프로그람작성체 계 에서 실행되 
며 주로 Fortran 을 확장하여 실현한다. 확장의 세가지 수단으로서 서고부분프로그람，새로 
운 언어 구성，콤파일러 directive 들이 있 다. 

• 서고부분프로그람 순차응용에서 유효한 표준서고에 보충적으로 새로운 서고함수 
모임 이 첨부되 여 병 렬성과 호상작용조작을 지원한다. 이 서고의 실례들로 MPI 통 
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보문넘 기 기서고 ， POSix Pthreads 다중스레 드기 능서고가 있 다. 


• 새 로운 언어구성 프로그람작성언어 는 병 렬성 과 호상작용을 지 원하도록 몇 가지 
새 로운 구성 에 의 하여 확장된 다(실 례 는 Fortran 90 에 서 집 합적 배 렬 조작). 

• 콤파일 러지시 어 프로그람작성언어 는 여전히 같지 만 형 식화된 설명 문 즉 를파일 
러 지 시 어 라고 부르는것 이 보충된 다. 

이 방법들을 실례로 그림 2-3 에 제시되였다. 모# 새로운 병렬프로그람들은 그림 
2-3 1) 에 있는 순차 C 코드와 같은 계 산을 수행한다. 서 고방법 은 그림 2-3 니에 서 보여 



그림 2-3. 3개의 병렬성방법 
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준다. 이것은 두개의 서 고함수 my _ process _ id () 이 다. 

Number _ of _ processes ( ) 는 병 렬 성 을 리 용한다. Barrier () 함수에 서 모든 프로쎄 스는 첫 번 
째 순환후에 동기 화되 고 그리하여 두번째 순환은 첫 순환에 서 갱 신된 배 렬 A 의 정 확한 
값을 사용하도록 한다. 

이 병 렬 조작은 새 로운 언 어구성 을 사용하여 더 간단하게 할수 있다. 그림 2— .3 n ) 
에서 례증된다. Fortran 90 배렬배정구성체 A (0: N - l )= b (0: N _ l )* b ( l : N ) 은 하나의 배정명령문에 
서 자개의 요소곱하기를 수행한다. 두 배렬배정사이에서 명시적동기화의 필요성은 없다. 
왜 냐하면 Fortran 90 명 령 문들은 완만하게 동기 화를 진행 하기 때 문이 다. 즉 한명 령 문안의 모 
# 조작들은 다음명령문이 시작하기전에 끝난다. 

를파일 러지 시 어 방법 은 그림 2-3 근)에서 보여 주었 다. 병 렬 pragma 는 다음명 령 문(블 
로크로 발생한다.)이 병 렬로 실행된다는것 을 나타낸다. 공유 pragma 는 세개의 배 렬변수들 
의 병렬프로쎄스들에 의해서 공유된다는것을 나타낸다. 한편 국부 pragma 는 매개 프로쎄 
스의 국부 /변수를 가진다는것 을 의 미 한다. SGI pfor pragma 장벽 동기 화를 발생 한다. 

이 세 가지 방법 들의 상대 적 인 우점 과 결 함은 표 2-1 에 제 시하였 다. 서 고법 은 현재 
가장 널리 사용된것이다. 왜냐하면 실현이 쉽기때문이다. 모든 병렬성과 호상작용가능성은 
순차 C 와 포트란을 보충완비하는 서 고부분프로그람모임 에 의하여 실현된다. 결과 새 로운 
콤파일러를 만들 필요는 없다. 그러나 콤파일러의 지원이 없으면 사용자는 콤파일시 해 
석，오유검사，최량화를 하지 못한다. 


표 2-1 _ 병렬프로그람작성체계의 실행을 우 I 한 세가지 방법 


방법 

실례 

우점 

결점 

서고 

MPI , PVM , Cray 

Craft 

실행하기 쉽다. 새로운 콤 
파일러를 요구하지 않는다. 

콤파일러검 사를 허용하지 
않는다. 분석，최량화 

새로운 구성체 

Fortran 90, Cray 

Craft 

콤파일러검사를 허용한다. 

분석，최량화 

실행하기가 어렵다. 새로 

운 콤파일 러를 요구한다. 

지령 

HPF , 

Cray Craft 

서고와 새로운 구성사이 에 순차를 무시 할수 있다. 


새 로운 구성 체방법 은 서 고방법 과 곡 반대 이 다. 새 로운 콤파일 러 는 하나의 관리 자로 
서 이 방법이 보다 실현하기 어렵게 한다. 그러나 새로운 콤파일러는 확장해석과 최적화 
해석 을 수행할수 있게 하며 그것은 오유를 찾아 내 고 보다 긴밀하고 효과적 인 코드를 발 
생하는데 쓸수 있 다. 

콤파일러지시방법은 다른 두 방법사이의 하나의 절충으로서 볼수 있다. 그것은 하나 
의 보충적우점을 가진다. 즉 병렬프로그람은 바로 순차프로그람에 몇가지 형식화된 해석 
들을 더한것 이 다. 때 문에 그것은 임 의의 순차가동환경 에서 콤파일되 고 실행될수 있으며 
그 과정 에 콤파일 러는 모든 지시 어들을 무시할수 있다(그림 2-3 ᄅ)를 참고). 

모든 pragma 들이 무시(삭제)될 때 그것은 그림 2-3 자)의 순차 C 프로그람과 같다. 

프로 그람 작성모형 을 실 현 하는데 세 가지 방법 이 사용될 수 있 다. 그 방법 들과 프로 그 
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람작성모형들은 모두 임의의 병렬가동환경에서 여러가지 방식으로 결합될수 있다. 실례 
로 Cray MPD 프로그람작성 모형 은 세 가지 방법 을 모두 리 용하여 (새 로운 구성，서 고기 능， 
콤파일 러지 시 어) Cray Craft 라고 부르는 집 적 화된 프로그람작성 도구에서 자료병 렬 
( Fortran 90), 공유변수(작업 공유) 그리 고 통보문넘 기 기 ( PVM ) 프로그람작성 모형 을 실현한다. 

2. 2. 프로쎄스，과제，스레 E 

한 병렬콤퓨터에서 사용자응용은 프로쎄스，과제，스레드로써 실행된다. 그것들사이 
의 공통성과 차이를 론의하자. 프로쎄스의 일반적인 정의는 실행되고 있는 하나의 프로 
그람이다. 이 간단한 정의는 분류하기 위하여 필요하다. 

2. 2. 1 • 추상프로쎄스의 정의 

프로쎄스개념은 두가지 준위에서 고찰하는것이 쓸모가 있다. 여기서 론의될 추상적 
인 견지는 간단하고 병렬콤퓨터사용자들에 게 적합하다. 

다음절에서 프로쎄스에 대한 보다 자세한 정의를 주며 어떻게 그것이 실현되는가를 
본다. 개념적으로 프로쎄스(스레드，과제)는 네가지 구성을 가지는 하나의 동적항목으로 
볼수 있다. 

정의 2. 1 프로쎄스 P 는 4 개의 조 P =( P , C , D , S ) 이다. 여기서 P 는 프로그람(또는 코 
드)， C 는 조종상태， D 는 자료상태， S 는 프로쎄 스 P 의 상태 이 다. 프로쎄스는 그안에 코드 
본문이나 자료가 없다는 점에서 동적이지만 실행중에 있다는 내용을 가지고 있다.정확 
히 이것 이 무엇을 의 미 하는가 아래 에서 설명한다. 

프로그람(코드) 어떤 프로쎄스가 하나의 프로그람과 관련된다. 구체적 인 실례로서 다 
음과 같은 C 코드를 고찰해 보자. 


main (){ 

Int t =0; 

fork (); fork (); 

printf ( Hello!\n ) ; 

이 프로그람을 를파일 할수 있 다(그것 은 파일 hello.c 안에 있 다고 가정한다.). 프로그람 
은 $ cc -0 Hi hello , c 이 며 그것 은 간단한 명 령 $Hi 로써 실 행 한다. 

조작체 계 는 hello 라고 네번 현시하는 프로쎄 스를 생 성한다. 사용자에 의하여 제 공되 는 
명확한 코드에 의하여(원천은 hello.c 안에 있다.) 프로쎄스는 실행시 지원，서고부분프로그람， 
체계기능을 그림에서 보는바와 같이 사용한다. 그리고 hello.c 안에 있는 원천 코드를 사용자 
코드라고 부른다. 우의 프로쎄 스는 printf ( )를 호출하며 printf ( ) 는 표준 C 프로그람작성 언 어 
I 八)서 고의 프로그람이 다. 또한 fork () 도 호출하는데 그것은 Unix 체 계의 호출이 다. 


的 



조종과 자료상래 대부분 프로그람은 명령식기계모형에 토대하며 여기서 중심개념은 
상태갱신이다. 명령식프로그람은 상태기계(혹은 자동체)로 고찰될수 있고 그것은 프로그 
탐을 초기상태로부터 하나 또는 그이상의 최종상태로 넘긴다. 우선 몇개의 용어들을 정 
의 한다. 

정의 2. 2 프로그람의 두개의 변수모임 을 사용한다. 즉 자료변수들읔 표로그람작성 자 
가 자료감을 유지하도록 선포한 변수들이다. 조종변수들은 조종흐름정보를 유지하는 변 
수들로서 명시적으로 선포되지 않는다. 다른 말로 말하면 조종변수들은 다음에 어떤 조 
작들이 실행되 여 야 하는가와 관련한 정 보들을 유지한다. 이 두 모임의 합은 프로그람변 
수모임을 이룬다. 

정의 2.3 임의의 시각에 프로그람의 매 개 자료나 조종변수는 값에 의하여 쌍을 이루 
며 그것은 정의되지 않은 특수한 값이다. 시각 떼서 모든(자료변수，자료값) 쌍들의 모임 
은 시각프로그람의 자료상태를 정의한다. 그리고 f 시각에서 프로그람상태는 f 에서 자료상 
태 와 조종상태 의 합이다. 때 로는 f 에 서 프로그람상태 를 모든 쌍(프로그람변수，값)들의 모 
임 이라고 말할수 있 다. 

정 의 2. 4 프로그람은 초기상태 를 가지 고 출발한다. 프로그람의 원자조작(정 의 1.2 참 
고)이 실행될 때 프로그람은 현재 상태로부터 다음상태로 변환된다. 프로그람은 원자조작 
을 계속 실행하면서 그것 이 끝날 때 까지 상태를 끊임 없이 갱 신한다. 그러면 프로그람은 
어떤 최종상태에 도달한다. 

명 령 식 프로그람은 하나 또는 그이상의 조작의 렬 들을 생 성하는것 으로 볼수 있 으며 
이 렬들은 상태기계를 초기상태로부터 최종상태로 변화시킨다. 물론 프로그람은 끝나지 
않을수 있다. 프로그람이 정 지하지 않는다고 보게 되 는 상태 에 들어 갈 때 프로그람은 
발산상태에 들어 간다고 말한다. 

간단히 조종변수는 프로그람계 수기 로서 간주할수 있 다. 조종의 단일 스레드를 가지 는 
어 떤 프로쎄 스에 는 바로 하나의 조종변수 즉 프로그람계 수기 가 있다. 다중조종스레드를 
가지는 하나의 프로쎄스에는 다중조종변수가 매개 스레드마다 하나씩 있으며 그 스레드 
의 프로그람계수기값을 유지한다. 다중부분프로쎄 스에 대 하여 전체 프로쎄스는 여 러개의 
조종변수를 가질수 있고 그 매개는 하나의 부분품요소프로쎄스에 대응한다. 



그림 2-4. 프로쎄 스상태 이행 도표 
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자료변수는 사용자프로그람에서 암시적 또는 명시적으로 선포될수 있다. 실례로 
Unix 프로쎄 스의 자료변수는 표준입 력，표준출력，표준오유에 대 하여 각각 숨은 파일 지적 
자 stdin , stolout stdevr 들을 포함하는데 그것은 명시적으로 선포되지 않을수 있다. 

프로쎄 스상태(상태) 프로쎄 스는 어 떤 시 각에 일정한 상태 를 가진다. 몇 가지 중요한 
상태들과 그것들의 이행을 그림 2-4 에서 보여 준다. 

• 시 작할 때 프로쎄스는 존재하지 않는다(그것 은 존재하지 않는 상태 를 가진 다.). 
그것은 생성기에 의한 프로쎄스생성조작을 통하여 어미프로쎄스에 들어 간다. 
새 롭게 생 성된 새끼프로쎄스는 실행준비 되지만 실제 적 으로 실행(그것의 코드를 
수행)을 오직 스케줄한 다음에 시 작된다. 프로쎄스가 실행하고 있는 동안에 여 러 
가지가 일어 날수 있다. 

• 그것은 실행 을 계 속할수 없어서 즉 페지고장이 나 몇 가지 다른 상황의 원인으로 
정지된 상태에 들어 갈수 있다. 

• 후에 다시 실행될수 있게 상황이 변화될 때 그것은 준비상태를 가지도록 다시 
나타날수 있다. 

• 프로쎄 스를 실 행하는것 은 역 시 높은 우선권을 가지 는 다중프로쎄 스에 의하여 리 
용될수 있거나 혹은 거기에 배당된 CPU 시간토막을 소비할수 있다. 두 경우에 
프로쎄스는 그자체 가 실행 을 계 속할수 있으며 그러 나 그것 은 CPU 자원을 주어 
그 상태 를 ready 로 교체한다. 

• 마침내 프로쎄스의 실행은 그자체가 끝날수도 있다. 그 코드가 실행을 끝낼 때 
정 규적 으로 끝내 거 나 비 정 규적 으로끝내 (중지 )거 나 관계 없 다. 

또 하나의 자주 사용되는 조작은 프로쎄스절환이다. 이것은 프로쎄스의 실행을 정 
지 혹은 준비된 상태로 옮기거나 실행되는 프로쎄스의 다음준비를 계획한다는것을 의미 
한다. 그림 2-4 의 도식 은 주요프로쎄 스상태 들을 포괄한다는것 을 의 미한다. 

실제 적 인 조작체 계 와 병 렬프로그람작성환경 에서 보충적 인 상태 들로 하여 훨씬 더 복 
잡해 진다. 실례 로 공유기 억 기 병 렬프로그람작성 [39] 에서 ANSI X 3 H 5 표준은 새 로운 상태 
를 허락한다. 즉 프로쎄스는 실행을 끝내는데 관하여 작업감시상태에 들어 갈수 있다. 이 
러한 놀고 있는 프로쎄스는 어떤 새로운 작업을 할수 있도록 배정할 때 활성화된다. 이 
도식은 프로쎄스의 중지로부터 초래되는 부가처 리를 감소시 킬수 있고 그다음 새로운 작 
업 을 하기 위해 다시 생 성 된다. 

우에서 준 프로쎄스개념은 사용자들 즉 병렬언어를 쓰러는 사람들에게 적합하다. 프 
로쎄스개 념 을 실현하려 는 사람들，실례 로 병 렬언어 나 통보문넘기 기서고의 제 작자들에 
대 해서는 프로쎄 스의 보다 상세한 견해 가 요구된다. 프로쎄스를 실현하려 면 다음의 관 
점 즉 실행방식，주소공간，문맥처 리서술자，프로쎄 스조종을 고찰해 야 한다. 
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2. 2. 2 . 실 행 방 식 


실행 방식 에서 조작체계는 보통 다음의 구성요소들을 포함한다. 

핵심부는 조작체계에서 본질적이며 필수적인 프로그람으로서 체계자원을 직접 관리 
하고 그밖에 프로쎄스들을 조종한다. 오직 하나의 핵심부만이 한 순간에 하나의 콤퓨터 
안에 있을수 있다. 

셀은 역시 명령해석기로 알려 져 있다. 그것은 조작체계에 대한 사용자대면부이다. 
Unix 우에서 C 썰은 하나의 실례이다. 

편의프로그람은 자주 사용되 는 기능 즉 콤파일 러，편집 기，오유수정기 등을 제 공하는 
보충적 조작체 계 이 다. 

를퓨터 는 프로그람을 실 행하는데 서 두가지 실 행방식 을 제 공한다. 어 느 방식 이 적 용되 
는가 하는것 은 어 떤 특정 의 등록기안에 있 는 하나 또는 그이 상의 비 트에 의하여 가리켜 
진 다. 핵 심 부는 핵 심 부방식 에 서 실 행하는데 감독자방식，체 계방식 또는 특권 방식 으로 알려 
져 있다. 

게 다가 핵 심부프로쎄 스들은 핵 심부방식 에서 실 행된다. 이것들은 핵 심부가 체 계 자원 
을 관리 하는데 도움을 주는 핵 심부에 의 한 생 성된 프로쎄 스들이 다. Unix 에서 swapper 프 
로쎄스는 하나의 실례이다. 

다른 프로그람들은 사용자방식 에서 실행된다. 이러한 프로쎄스를 사용자프로쎄스라 
고 부론다. 또 유털리리 (실례 로 콤파일 러)가 조작체 계 의 부분이 라고 해 도 그것들은 사용 
자프로쎄스로 실행된다는것을 알아야 한다. 사용자프로쎄스가 실현되고 있을 때 핵심부 
는 역시 기 억에 있다. 사용자방식 에서 프로그람실행은 사용자준위프로그람이라고 부론다. 
다른것 은 핵 심 부준위프로그람이다. 

방식절 환 실 행방식 은 사용자와 핵 심 부방식사이 에 서 뒤 또는 앞으로 절 환될 수 있 다. 
모든 콤퓨터는 핵 심부방식 에서 출발한다. 체계를 초기 화하고 몇 가지 핵심부프로쎄 스를 
생 성한후에 핵 심 부는 결 국 조종을 쉘 로 보낸 다. 그것 은 보충적 인 사용자프로쎄 스를 생 성 
할수 있는 하나의 사용자프로쎄스이다. 

사용자프로쎄스가 실행될 때 실행방식은 다음의 두가지 상황에서 핵 심부방식 으로 절 
환될수 있다. 

사용자프로쎄 스가 체 계호출이 핵 심 부로부터 봉사를 요구하게 하는것 을 포함하여 동 
기 례 외 가 발생 될 때 , 체 계호출. 

비 동기례 외 (실 례 로 시 계 또는 디 스크새 치 기 )가 존재할 때 . 

핵 심 부가 요구된 봉사를 끝낸후에 실 행방식 은 사용자방식 으로 절 환할수 있 다. 핵 심 
부에 의하여 수행 된 봉사들은 다음 두 부류들로 나눌수 있 다. 첫번째 부류는 어 떤 특수 
한 사용자프로쎄 스를 위하여 수행되 지 않는다. 이것 은 프로쎄 스비동기례외를 스케 줄하고 
조종하는 프로쎄스를 포함한다. 

두번째 부류는 프로쎄스가 동기례외를 발생할 때 사용자프로쎄스를 위하여 수행된다. 

실례 로 사용자프로쎄 스가 령나누기 를 발생할 때 핵 심부는 례외 조종기를 실행 하고 결국 
사용자프로쎄 스를 끝낸 다. 또한 사용자프로쎄 스가 체 계호출함정 (새 치 기 )을 만들 때 핵 심 부는 
예 견된 체 계 봉사(실 례 로 1/0함수)를 실 행 하고 그다음 사용자프로쎄 스를 계 속 진행한다. 
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2. 2. 3. 주소공간 

콤퓨터들은 어떤 대상을 가리키기 위하여 주소(또는 위치)를 사용한다. 대상은 자료 
이거나 코드이다. 명령에서 규정된 주소를 가상주소라고 부론다. 한편 처리기가 그것을 
주소모선(물리)에 설정하는 주소를 물리주소라고 부론다. 

대 부분 콤퓨터 체 계 에 서 매 개 주소는 물리적 이 든 가상이 든 lbyte 의 정 보를 가진다. 주 
소들은 보통 0에서 시 작하여 최 대까지 련속적 으로 커 진다. 

처리기의 주소공간 어떤 처리기에 대하여 모든 가능한 가상(물리)주소들의 모임을 
그 처리기의 가상(물리)주소공간이라고 부론다. 주소공간이란 용어는 물리적 및 가상주소 
공간사이를 구별하지 않는것 이 중요하지 않을 때 자주 사용된다. 

주소공간의 크기는 주소의 총수 A 이 다. 매개 주소가 한 byte 를 가지므로 우리는 자 
주 Abyte 의 주소공간이 라고 말한다. 처 리 기의 가상주소공간의 크기 는 명 령 모임 구성 방식 
에 의하여 주어 지 며 물리 적 주소공간의 크기 는 그것 의 주소모선의 폭에 의하여 결정 된다. 

실례로 Intel Pentium 처리기는 32 bit 물리적 주소들을 가지며 하나의 프로쎄 스는 46 bit 
가상주소를 가진다. 프로쎄스의 견지로부터 처리기는 2 32 =4 GB 의 물리적주소공간과 
2 46 =64 TB 의 가상주소공간을 가진다. 왜 64- TB 가상주소공간이 필요한가를 다매체를 통하 
여 쉽게 알수 있다. 

닫긴 movie 서고를 만든다고 가정하자. 하나의 영화 ( movie ) 프레임은 1024 x 1024 화소들 
을 가지 며 매 화소는 4 byte 를 요구한다. 그것 은 프레 임 당 4 MB 이 다. Is 의 영 화에 는 30개 
의 프레임들이 있다. 압축하지 않은 두시간 영화는 2 x 3600 x 30 x 4 MB =0.864 TB 를 요구한다. 
언제 나 4- GB 의 물리주소공간이 요구되 는가가 명백치 않는것은 부분적 으로 물리 적주소들 
이 오직 물리 적 주소공간에 만 접 근하기 때 문이 다. 

이 책에서 용어 기억기주소공간(간단히 기억)이 자주 주소공간대신에 사용된다. 실례 
로 Intel 처리기는 독립적인 I / O 주소공간을 가진다. 

기 억주소공간에서 주소는 임의 의 장치 를 가리키 는데 사용할수 있다. 장치는 기 억기， 
디스크 그리고 다른 I / O 장치들을 포함한다. 하나의 좋은 류사한 실례는 주소를 전화번호 
로 고찰하는것 이 다. 

주기억 으로 모든 물리 적주소공간을 유지할 때 4 GB 가 큰것 은 아니 다. IBM PC 가 나 
왔을 때 그것 은 다만 약 0.5 MB 주기 억 을 가지 고 있 었다. 1997년 에 하나의 IBM PC 에 대 
하여 16 또는 32 MB 의 주기억 을 가지 는것 이 보통이 였 다. 이 추세 에 따르면 15~20년 내 에 
개 인용콤퓨터 에 대 하여 4 GB 를 내 다 볼수 있을것 이 다. 현재의 고속콤퓨터들에서 4 GB 또 
는 보다 큰 물리적주소공간은 분산형 이든 집중형 이든 공유기억기를 위해 요구된다. 

실례 2.1. Alpha 21064처리기에서 주소공간 

DEC Alpha 21064처리기는 34 bit 물리적 주소들을 가진 다. Gray 는 그것을 T 3 D MPP 를 
제 작하는데 리용했 을 때 그것 의 물리 적 주소공간이 너 무 작다는것 을 밝혔으며 매 개 처 리 
기에 주소공간을 확장하려면 새로운 소편을 보충해야 했다. 

왜 냐하면 Cray T 3 D 는 2048처 리 기 들로 확대 할수 있 게 설 계 되 고 매 개 처 리 기 는 64 MB 
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의 국부기억기를 가질수 있으며 한편 그것은 다른 처리기들과 떨어 져 있기때문이다. 

분산공유기억기계면 T 3 D 는 매개 처리기가 국부기억과 마찬가지로 원격기억기에 접 
근하게 한다. 

그 의미는 매개 처리기가 2048*64 MB =128 GB 또는 37 bit 물리적주소공간이 필요하다 
는것 이 다. 

표 2-2 는 널리 쓰이는 주소공간크기를 보여 준다. 알수 있는바와 같이 뒤에 있는 
모형일수록 더 큰 공간을 가진다. 실례 로 DEC Alpha 구성 방식 은 실제 적 으로 가상 및 물 
리주소들을 위하여 64 bit 들을 허 용한다. 오직 43 bit 가상주소들이 21064처 리 기 에서 실현되 
지 만 그 나머 지 21 bit 는 보존된 다. 따라서 라064를 위하여 개 발된 프로그람들은 그다음의 
처리기우에서 실행될수 있으며 그것들은 21 bit 의 부분 또는 전체를 쓸수 있다. 


표 2-2 일반처리기의 주소공간크기 


구성방식 

모형 

를려주소공간크기 

가상주소공간 

Intel 80x86 

8086 

1 MB (2 20 B) 

1 MB (2 20 B) 

Pentium 

4 GB p 32 B) 

64 TB (2 46 B) 

PowerPC 

601 

4 GB (2 32 B) 

4 PB (2 52 B) 

620 

16 EB (2 64 B) 

16 EB (2 64 B) 

DEC Alpha 

21064 ; 

16 GB (2 34 B) 

8 TB (2 43 B) 

21164 

1 TB (2 40 B) 

8 TB (2 43 B) 

MIPS 

R4000 

64 GB (2 36 B) 

1 TB (2 40 B) 

R10000 

1 TB (2 40 B) 

16TB(2 44 B) 


가상기 억 기 배 치 ( layout ) 어 떤 프로쎄 스의 가상주소공간배 치 를 그림 2-5 에 서 간단히 
보게 된다. 그것 은 Unix 와 같은 일 반적 인 조작체 계 에서 볼수 있다. 프로쎄 스주소공간의 
부분은 핵 심부방식 에서만 접 근될수 있으며 그것 을 핵 심부공간이 라고 부론다. 다른 부분 
은 사용자공간으로서 세토막으로 나눈다. 고정된 크기의 처 리 기를 가지 고 있는 본문토막 
은 쓰기할수 없 으며 다른 프로쎄 스에 의하여 공유될 수 있 다. 

표 2-2 의 자료토막은 프로쎄 스의 정 적 및 동적 자료대 상들을 유지 한다. 동적 자료는 자 
료토막의 너비구역에 기억되며 그것은 실행시 늘거나 줄어 들수 있다. 탄창토막은 수속호 


- 사용자공간 - ►] 

[◄- 핵심부공간 _►] 

본문 ir 

(정 4"巧，%미) 

― ► ◄ —— 

탄창토막 


프로쎄스 
서술자 



그림 2-5. 프로쎄스의 주소공간배 치 
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출의 활성 화기 록을 보관하는데 사용되 는데 수속호출은 다른것 들가운데 서 그 프로쎄 스에 
의하여 만들어 진것이다. 탄창 역시 실행시 늘거나 줄어 들수 있고 보통 너비와 반대방 
향으로 변화된다. 

2. 2. 4. 프로쎄스문맥 

어떤 프로쎄스문맥 은 처 리기등록기 에 기 억되는 프로그람상태 의 부분이 라는것 이 다. 
모든 처 리기등록기들이 프로쎄 스문맥의 부분으로 되는것은 아니 다. 실례로 류점등록기 들 
이 그것들을 사용하지 않는다면 프로쎄스문맥 안에는 없다. 

문맥절환은 현재의 프로쎄스문맥을 보관하고 새로운 문맥을 적재하는 트랜잭션이다. 
문맥절환은 방식절환이 있을 때 요구된다. 실례로 건반새치기가 사용자프로쎄스가 실행 
되고 있는 동안에 일어 나면 처리기는 조종을 핵심부로 넘기여 새치기조종기(새치기봉사 
프로그람)를 실행하게 할것 이 다. 

그러 나 처 리기가 실행되기 전에 사용자프로쎄스문맥 을 기 억기 에 보관하여 등록기 들을 
조종기가 쓸수 있게 속박하지 말아야 한다. 새치기가 프로쎄스된후 핵심부는 사용자프로 
쎄스문맥을 회복하고 조종을 사용자프로쎄스가 실행을 계속하도록 뒤로 넘겨야 한다. 

문맥절환은 또한 프로쎄스절환 혹은 스레드절환이 일어 날 때에도 요구된다. 프로쎄 
스(스레드)절환은 프로쎄스(스레드)의 실행이 상태를 준비 혹은 정지로 변화시키고 준비 
된 프로쎄스(스레드)가 실행되도록 스케줄될 때 일어 난다. 스레드절환은 최소한 탄창지 
시기，프로그람계수기，상태등록기들을 변화시킬것을 요구한다. 주소공간이 변화될 때 프 
로쎄스절환은 모든 등록기들을 변화시킬수 있다. 

2. 2. 5. 프로쎄스서술자 

프로쎄스에 대 한 보충적정보는 핵심부공간에서 몇 가지 구성 방식들로 보관된다. 가장 
중요한것 은 프로쎄 스서 술자이 며 그것 은 핵 심 부가 프로쎄 스를 관리 하는 정 보를 포함한다. 
그것들은 다음과 갈다. 

• 프로쎄 스신임 장 그것 은 프로쎄 스식 별 자，어 미 프로쎄 스식 별 자，사용자식 별 자，그 
룹식 별 자 기 타 등과 같은것 이 다. 

• 프로쎄 스상래 준비，실행, 정 지 같은것 이 다. 

• 문맥 프로쎄스문맥을 유지하는 구역. 이 구역은 실례로 프로쎄스가 실행으로부 
터 정지로 절환될 때 문맥을 보관하는데 리용된다. 

• 기억지도 주기와 여러가지 기억기토막의 호출권한，토막과 페지표에 대한 지시 
자와 같은것 이 다. 

• 다른 프로쎄스당 정보 열린 파일，수신신호 등과 같은것이다. 

• 대역자료구성방식 모든 프로쎄스에 대하여 핵심부가 관리하는 대기렬과 표에 
대한 지시자와 같은것이다. 실례로 모든 준비된 프로쎄스들은 준비대기렬에서 
실행하기 위하여 기다리고 있다. 

• 프로쎄스조종정보 이것은 2.2.6 에서 서술된다. 
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프로 쎄 스당 정 보 프로쎄 스서 술자를 과제 서 술자 혹은 프로 쎄 스조종블 로크라 고도 부 
른다. 핵심부는 모든 프로쎄스에 대하여 서술자의 표나 기록을 보관한다. 프로쎄스통보 
들이 모든 시간에 주기억기에 있을 필요는 없다. 

조작체 계는 프로쎄스서술자를 두 부분으로 나눈다. 즉 프로쎄스사용자공간을 교환할 
수 있는 프로쎄스당 부분과 모든 시각에 주기억기에 있어야 할 다른 부분으로써 나눈다. 
몇가지 실현들에서 프로쎄스당 부분은 사용자공간에 배치되지만 오직 핵심부에 의하여 
접근된다. 

프로쎄스당 부분의 실례는 핵심부탄창이 다. 사용자프로쎄스를 대 신하여 핵심부가 례 
외조종기 (실례로 체계호출，령나누기조종기)를 실행할 때 조종기는 수속호출하기 위해 
필요하며 따라서 탄창이 필요하다. 어떤 초기실행은 바로 모든 핵심부기능들을 위하여 
한개의 탄창을 리용하며 다중처리기체계에서 핵심부탄창을 병목으로 되게 한다. 많은 현 
대적 인 실행들은 매 프로쎄 스사용자공간에서 핵 심부탄창과 사용자탄창을 유지 하게 한다. 

2. 2. 6. 프로쎄스조종 

프로쎄 스조종은 핵 심 부가 실제 적 으로 프로쎄 스들을 관리 하는 기 능들을 의 미 한다. 

프로쎄스서술자 핵심부는 프로쎄스서술자들을 만들고 정지시키며 실행하게 하고 끝 
내는데 사용된다. 그것은 대역자료구성방식(실례로 준비된 프로쎄스에 대한 대기렬과 프 
로쎄 스서 술자의 목록)을 관리 하며 모든 프로쎄 스당 자료구성 방식 을 관리 한다. 

보호 핵심부는 프로쎄스가 권한을 가지고 있는 자원들에만 접근하는것을 담보하기 
위하여 폭 넓은 검사를 수행한다. 프로쎄스서술자는 여러가지 프로쎄스에 대한 특권과 권 
한정보를 포함하고 있다. 보통 사용자프로쎄스는 오직 사용자공간에만 접근할수 있다(그 
림 2-5). 그러 나 핵심부공간이 나 또 다른 프로쎄스의 사용자공간에 접근할수 없다. 두 프 
로쎄스는 Unix 에 서 의 통보와 흐름관과 같은 특수한 프로쎄 스간 통신 ( IPC ) 을 통하여 통신 
한다. 어떤 체 계들은 공유주소공간을 통하여 프로쎄스들을 통신할수 있게 공유기억기구 
역 을 허 용한다. 어 떤 콤퓨터 체 계 에 서 모든 기 억 기 와 FO 장치 들은 주소로서 참조된 다는것 
을 알아야 한다. 주소공간을 보호하는것 으로서 핵 심부는 모든 기 억기， I / O 장치 들, 프로그 
탐과 자료파일 등에 대 한 보호를 확보한다. 

일 정 작성 기 이 것 은 자원(처 리 기，기 억 기 와 FO ) 을 일 정 작성 기 라고 부르는 핵 심 부프로 
그람에 의 하여 프로쎄스들에 배 정 하는것을 의미 한다. 일 정 작성기는 공평해 야 하며 효과 
적이여야 한다. 프로쎄스서술자는 프로쎄스우선권정보를 포함한다. 일정작성기는 같은 우 
선권을 가지는 프로쎄스들이 체계자원에 대한 갈은 접근를 가지며 높은 우선권프로쎄스 
일 수록 더 좋은 접 근을 가지 게 한다면 공평하다. 일 정작성 기 의 중요한 형 태 들은 그림 2- 
6에 실례로 보여 주었다. 

실례 로 어 떤 프로쎄스는 부족되지 말아야 한다. 바꾸어 말하면 어 떤 속박되 지 않은 
처 리기를 실행 하기 위하여 언제 나 기 다리 게 하여 야 한다. 일정작성기는 낮은 부가처 리 를 


69 





일으키면 효과적이다. 가장 간단한 체계는 오직 단일사용자프로쎄스가 한 시각에 활성화 
되게 하는것이다. 다시 말하면 한명의 사용자만이 한 시각에 체계를 리용할수 있게 한다. 
사용자프로쎄 스가 I / O 기 능을 완결 하기 위하여 기 다리 고 있을 때 다른 프로쎄 스들은 속박 
되지 말아야 처리기자원을 사용할수 있다. 



이 자원들은 단일사용자에게 전용으로 제공된다. 이러한 체계를 단일사용자 단일-과제기 
능(유일프로그람기능)체계라고 부른다. Microsoft DOS 는 하나의 실례이다. 보다 정교한 체계들 
은 단일다중처 리 기들의 자원을 동시 에 리용하게 한다. 

이 러 한 단 일 사 용 자 다 중 과 제 체 계 의 한 실 례 는 Microsoft Windows 이 다 . Unix 와 
Windows NT 는 다중사용자다중과제 처 리 (또는 다중프로그람처 리 )체 계 의 실 례 들이 며 그것 
은 많은 사용자들이 체계자원을 동시에 공유하게 한다. 

자원공유는 다음과 갈은 여러가지 형식을 가진다. 

• 전용제공방식에서 사용자프로그람은 요구되는 자원을 배타적으로 사용한다. 그 
것은 프로그람이 끝날 때까지 자원을 주지 않는다. 다른 말로 말하면 자원은 공 
유되지 않는다. 

• 묶음프로쎄 스방식 에 서 사용자프로쎄스는 일 단 동작하도록 일 정작성 되 면 완성 될 
때 까지 실행한다. 그러 나 다중프로그람작성 묶음프로쎄 스체 계 에서 프로쎄스는 
I / O 조작의 완성과 같은 사건을 위하여 기 다리 고 있을 때 처 리기 자원을 자발적으 
로 준다. 

• 시간공유방식에서 여러 사용자프로쎄스는 동시에 한 처리기우에서 호상 배치되는 
형태로 실행된다. 처리기시간은 짧은 시간토막(또는 량자)으로 분할된다. 매개 프 
로쎄스가 한토막동안에 실행되면 그다음 처리기를 다른 프로쎄스에 양보한다. 

• 독점체계에서 높은 우선권을 가지는 프로쎄스는 처리기를 낮은 우선권을 가지는 
프로쎄스로부터 떼 낼수 있고 지 어 이때 후자는 현재의 시 간토막을 다 사용하지 
못 한다. 

실례 2.2. 시간공유 대 묶음프로쎄스 

시간공유기술이 특히 호상작용응용들에서 쓸모 있으며 그것은 말단으로부터의 I / O 조 
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작을 요구하고 빠른 응답시간을 가진다. 10개의 프로쎄스가 하나의 처리기를 쓰고 있다 
고 하자. 하나의 호상작용프로쎄스의 프로쎄스시 간은 5 S 가 요구된다. 다른 프로쎄 스들은 
모두 1000 s 가 요구된다. 

묶음프로쎄 스일정작성 기 가 호상작용프로쎄 스를 다른 아홉개 프로쎄 스다음에 일정작 
성 기 하였 다면 묶음프로쎄 스체 계 에 서 사용자는 호상작용프로쎄 스 최 종결 과를 얻 도록 허 락 
한 다음에는 900 s 동안 기 다리게 된다. 

그러 나 시 간공유체 계 에서 사용자는 오직 50 s 동안 기 다리 게 된다. 이 실례 의 자세한 
것은 련습으로 남겨 둔다. 


실례 2.3 실시간체계에서 독점적 일정 작성기 

독점적일정작성기는 실시간체계에서 가치가 있다. 그것은 일정한 체계들이 일정한 
시 간제한안에서 끝날것을 요구한다. 실시 간프로쎄스가 5 s 의 처 리기시간이 필요하며 10 s 내 
에 끝날것을 요구한다고 하자. 실례 2.2 에서 본바와 같이 이 요구는 간단한 시간공유에 
따르면 9개 이상의 프로쎄 스가 존재할 때 만족될 수 없 다. 그러 나 독점 적 인 일 정작성 기 를 
가지 면 실 시 간프로쎄 스는 다른 프로쎄 스들을 독점할수 있 고 5 s 내 에 끝날수 있는데 이 동 
안에 부가처 리는 무시된다. 

실 례 2.4. 다중프로그람화된 묶음프로쎄 스 

병 렬응용이 두 처 리기다중콤퓨터에서 묶음프로쎄스방식 으로 실행된다고 가정 하자. 
그러면 실행시간은 응용이 전용제공방식으로 실행될 때 보다 4배나 더 길게 관측된다. 

왜 그런가? 

하나의 답변은 묶음방식 은 자원이 전용으로 제 공되 여 사용한다는것 을 의 미하지 않는 
다는것 이 다. 처 리기 가 체계호출을 통하여 통신조작을 수행할 때 그것은 처 리 기를 또 다 
른 처리기에 주며 그 처리기는 긴 처리기시간을 요구하게 된다. 이것은 그림 2-7 의 실례 
를 통하여 보게 된다. 


5 1 2 

I 48 

5 

처리기 l | A | 

_ c_ _ 

_ Ldl 

1 떼 간 

1 

처리기 i \~ b \ ~ 

公 



그림 2-7. 다중프로그람화된 묶음프로쎄4 


병렬응용이 두개의 프로쎄스 A 와 B 를 가지고 매개 처리기에 배정되고 계산에 10 s 를 
요구한다. 역시 2 s 의 통신부가처리가 있다. 전용제공방식에서 프로그람의 두 처리기들에 
대 해서 전체 12 s 걸린다. 처 리 기들은 통신이 진행되는 동안 기 다리게 된다. 

다중프로그람화된 묶음프로쎄스방식에서 기다리고 있는 처리기는 통신을 계산과 중 
첩시켜 편리하게 할수 있다. 프로쎄스 A 와 표가 통신을 호출할 때 그것들은 처리기들을 
프로쎄스 C 와 D 에 양보한다. 그러나 A 와 B 는 C 와 D 가 그것들의 계산을 끝내고 처리기들 
을 양보할 때 처리기에 되돌아 올수 없다. 경과시간(혹은 벽시계시간)은 60 s 로 증가한다. 
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병렬콤퓨터들에서 다음의 용어들은 지금까지 일정작성기를 위하여 사용되여 왔다. 
공간공유는 하나의 프로쎄스를 한 처리기에 배정하는것을 의미하며 서로 다른 응용들은 
서로 다른 처리기모임(자주 분할부분으로 분리운다.)에 배정된다. 다중프로그람작성방식 
을 가리키는데 그 방식 에서 서 로 다른 응용의 다중프로쎄스들은 같은 프로쎄스에 7배정 
될 수 있 다. 이 프로쎄 스들은 그림 2-3 에 있 는 묶음，시 간공유(시 간토막화) 또는 독점방 
식 에 의하여 일 정작성 기 된 다. 

병 렬콤퓨터 들의 일 정작성 기 는 병 렬응용이 호상작용프로쎄 스들을 가지 는가를 반드시 
고려 해 야 한다. 이 프로쎄 스들을 개 별적 인것 으로 일정작성 기하면 독립 적 인 프로쎄 스들은 
현저히 성능을 낮춘다. 

실례 2.5. 병렬처리기의 일정작성기에서 최악의 경우 

그림 2-6 을 다시 고찰하자. 통신이 동기화된다고 가정하자. 바꾸어 말하면 두 프로쎄스 
A 와 B 가 함께 실행되여야 한다고 가정하자. 프로쎄스 A 가 통신코드실행을 시작할 때 묘는 
더이상 실행되지 않는다는것(실례로 시간초과 또는 먼저 차지)을 볼수 있다. 벌써 더 나쁘게 
B 가 바뀌 여 진다. 따라서 A 는 B 가 다시 실행될 때까지 오래동안 기 다려 야 한다. 

그러 나 이 시 각에 A 는 그것 의 처 리 기 시 간토막을 다 리용하였 으므로 시 간이 초과된 다. 
따라서 표는 기다려야 한다. 이 과다상태 는 오래 동안 계 속될 수 있다. 이 과다상태문제 를 
해 결 하기 위 한 기 술은 그롭일 정 작성 기 이 다. 그 기 본사상은 호상작용하는 처 리 기 들은 하 
나의 항목(그롭)으로서 일정작성 기 되 여 야 한다는것 이 다. 그룹성 원이 실 행 하고 있을 때 모 
든 성 원들은 실행 하고 있다. 꼭 하나의 성 원이 일정작성 기할수 없거 나 바로 하나의 성 원 
만을 일정작성하게 한다. 이 것 들과 다른 일 감일정작성 기문제 들은 9.5 에 서 구체 적 으로 론 
의된 다. 


2. 2. 7. 프로쎄스의 변종들 

일반적인 조작체계프로쎄스들은 개별적인 주소공간을 가진다. 이 개념은 다중사용자， 
다중과제환경에서 안전과 보호에 의한 의미를 가전다. 모든 사용자와 체계프로쎄스들이 같 
은 주소공간에 있을 때 대혼란이 초래될수 있다. 그러나 이 개별적주소공간개념은 프로쎄스 
관리 가 시 간을 소비하게 한다. 실례 로 Unix 프로쎄 스가 fork () 체 계호출을 실행하여 새끼 프로 
쎄스를 생성할 때 그 프로쎄스에 대 하여 새로운 주소공간이 생성되 여 야 한다. 이것은 기 억 
이 배치되여야 한다는것，자료토막과 어미에 대한 서술자가 복사되여야 한다는것，실행시 
탄창이 새끼를 위 해서 설정되 여 야 한다는것을 의 미한다. 그러면 성능상 리 유로 하여 Unix 프 
로쎄스들을 무거운 프로쎄스라고 말한다. 프로쎄스생성과 절환의 높은 부가처리는 병렬프로 
쎄 스에 서 하나의 불리한 결 과를 가질 수 있 다. 3장에 서 볼수 있지 만 하나의 Unix 처 리 를 생 성 
하는데 수십만의 CPU 주기가 걸리며 다량의 자료모임을 가지는 실제프로쎄스가 분산형기억 
콤퓨터우에서 생성될 때 훨씬 더 많다. 따라서 무거운 병렬프로쎄스들이 조잡한 계산들을 
가지 지 않는 한 중부하병 렬 프로쎄 스는 확대 가능병 렬 콤퓨터 에 서 적 합치 않다. 병 렬 성 을 리 용 
하려면 가벼운 프로쎄스들을 진행하여야 한다. 

가벼 운 프로쎄 스의 개 념 (스 레 드 라고도 부론다.)은 몇개의 조작체 계，스레 드서 고，병 렬 


72 




프로그람작성 언 어 들에 서 제 기 되 고 실 현되 였 다. OS 프로쎄 스와 스레 드의 주요차이 는 무거 
운 OS 프로쎄 스안에서 다중스레 드들은 처 리기와 같은 주소공간(프로쎄스서 술자를 포함하 
면서)을 공유하며 존재할수 있다는것이다. 하나의 프로쎄스가 생성될 때 그것은 보통 기 
초스레드라고 부르는 단일스레드를 가진다. 임의의 스레드는 보통적인 스레드들을 스레 
드생성조작에 의하여 생성할수 있는데 그것은 아래서 보는바와 같은 전형적인 형식을 가 
진 다. 

Thread _ cread ( foo , argmentl , - - -, argmentn ): 

이러한 조작은 프로쎄스호출과 대단히 류사하다. 그것은 스레드를 생성하여 n 인수를 
가지 는 함수 foo 를 실 행한다. 개 별적 인 실행 시 탄창은 새 로운 새끼프로쎄 스에 대 하여 설 
정될것을 요구하는데 그것은 나머지주소공간 (코드토막, 자료토막，프로쎄스서술자)을 어 
미스레드와 공유한다. 

기억배정이 훨씬 적고 복사가 요구되기때문에 스레드를 만드는것은 무거운 프로쎄스 
를 생성하는것보다 훨씬 더 빠르다. 사용자준위스레 드는 핵 심부를 동반하지 않고 생성 될 
수 있는데 그것은 방식스위치부가처리를 절약한다. 

어떤 스레드 는 스레드 단위의 탄창보다 더 많은것을 요구한다. 다른 정보들은 보관 
되여야 하는데 그 정보는 다음과 같은것들이다. 문맥 즉 프로그람계수기를 포함한 처 
리 기등록기，실행，중지，준비 와 갈은 실 행 상태 그리 고 스레 드 비 공개변수를 유지 하는 
스레드 단위자료구역이다. 게다가 스레드 는 핵심부 혹은 사용자준위 스레드 서고에 의하 
여 관리(생 성，끝내 기，일 정작성 기 등등)되 여 야 한다. 

이 책에서 용어처리는 문맥이 명백하거나 무게와 관련이 없을 때에 무거운 프로쎄스 
또는 스레 드를 가리키 도록 사용한다. 한편 우리 는 다음의 약속을 규정한다. 


Task = process = heavy_weighted process=OS process 
Light 一 weighted process=thread 

2. 3. 병렬성문제 

병렬프로그람작성은 순차프로그람작성보다 더 복잡하며 많은 문제들이 더 생긴다. 
그러 므로 사용자프로그람에 서 병 렬 성 을 규정 하는데 로부터 발생 하는 문제 들을 론의 한다. 

2. 3. 1 . 프로쎄스에서의 동질성 

이것은 병렬프로그람에서 요소프로쎄스들사이의 류사성을 의미한다. 다음과 같은 세 
개의 기본적인 가능성이 있다. 

• SPMD : 단일 프로그람다중자료 ( SPMD ) 프로그람에 서 요소프로쎄 스들은 같은 코드 
가 서 로 다른 자료령역 에서 다중프로쎄 스에 의하여 실행된다는 점 에서 동질 이다. 
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• MPMD : 다중프로그람다중 자료 (MPMD) 프로 그람의 요소프로쎄 스들은 다중프로쎄 
스를 서 로 다른 코드로 실행 한다는 점 에서 동질 이다. 

• SIMD : SPMD 와 MPMD 프로그람들은 둘 다 각이한 명 령 들이 같은 시 각에 서 로 
다른 프로쎄스에 의하여 실행될수 있다는 점 에서 MIMD 이 다. SIMD 프로그람은 
SPMD 보다 제 한적 이며 여 기서 다중프로쎄스의 같은 코드가 실행해 야 할뿐아니 
라 역 시 그것들은 모두 같은 시각에 같은 기 계명 령 을 실행해 야 한다. 다른 말로 
SIMD 프로그람은 SPMD 프로그람의 특수경우이 다. 

이 책 에서 는 MIMD 프로그람들에 초점 을 두고 고찰하였 다. 그것 은 실제응용들에서 
우월한 병렬프로그람들이며 대부분병렬콤퓨터들이 MIMD 기 계 이 다. MIMD 프로그람들은 
보통 병 렬 블로크구성 이 다. 다중코드방법 에 의하여 규정 된 다. 한편 SPMD 프로그람들은 보 
통 병 렬순환구성，자료병 렬구성 또는 아래서 론의 되 는 단일코드방법 에 의해서 규정된다. 

두가지 보충적 인 용어 들이 책 에서 자주 제 기 된다. 자료병 렬프로그람은 일 반적 으로 
SPMD 프로그람 특히 오직 자료병 렬 구성 (Fortran90 에 서 와 같이 )사용자프로그람을 가리킨다. 
그것은 자료령역이나 자료구성방식에서 병렬성을 리용하는것을 강하게 요구한다. 기능병 
렬(단자 또는 과제병렬 이 나 조종병렬로 알려 져 있다.)프로그람은 보통 MPMD 프로그람과 
동의 어로 쓴다. MDMD (기능-병렬)와 SPMD (자료병 렬)양상은 하나의 병 렬프로그람에서 혼 
합될수 있다. 

병 렬 블로크 MDMD 프로그람을 표현하는 방법은 parbegin 과 parend 구성 을 사용하는것 이 
다. 이 구성 방식 화된 구성 들은 원 래 Dijkatra 에 의 하여 제 안되 였 으며 cobegin 과 wend 로 알 
려 져 있다. 그것들은 언제나 다음과 같이 쌍으로 사용된다. 

Parbegin Si S • … S n parend 

는 병렬블로크로 불리우며 여기서 SiS 2 - …、은 부분품프로쎄스이다. 그것은 각이한 코드 
를 포함한다. 병렬블로크는 일반적인 순차언어들에서 볼수 있는 순차블로크 즉 begin S 
1 S • … S n 에 대 비 하여 그렇 게 부르게 되 였 다. 

병렬블로크가 실행될 때 병렬블로크의 «개 요소프로쎄스 次， s 2 , s n 은 동시에 실 
행출발한다. 그것들은 서로 독립으로 실행하며 매개는 자기 단계에서 실행한다. 특수한 
호상작용조작들만 실행되 여 이 프로쎄 스들을 조화시 킬것 을 요구한다. 병 렬블로크는 모든 
n 부분프로쎄스들이 끝날 때 끝난다. 

병렬순환 하나의 병렬블로크안에 있는 모든 프로쎄스들이 갈은 코드를 공유할 때 
병 렬 블로크는 병 렬 순환이 라고 부르는 간략표기 법 으로 다음과 같이 표시할수 있 다. 

Parbegin Process( 1) • • -Process(n)parend 

이것은 다음의 병렬순환으로 간단화할수 있다. 

Parfor(i:= 1 ;i<=n;i++) {Process(i)} 
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병 렬 순환은 자주 SPMD 병 렬 프로그람들을 서 술하는데 서 사용된 다. 

조작체 계 또는 망체 계 와 같은 체 계프로그람의 프로쎄 스들은 보통 이 질적 이다. 많은 
병 렬계산프로그람들은 특히 대 량적 인 병 렬를퓨터 를 위한것들은 고도로 이 질적 이다. 
1000- 처리기콤퓨터에 대하여 완전히 이질적인 병렬프로그람을 쓰는것은 어렵다. 왜냐하 
면 그것은 매개 처리기에 대하여 서로 다른 프로그람을 씨야 하기때문이다. 

병 렬 프로그람작성환경 에 서 동질 및 이 질적 인 프로쎄 스에 대 하여 제 공하는것 은 기 대 
할만하다. 그러나 SPMD 를 지원하는것은 주로 확대가능콤퓨터들에 대해서는 충분하다. 
각이한 코드들의 수가 작을 때 SPMD 프로그람을 씨서 MPMD 를 꾸며 낼수 있다. 실례로 
MDMD 코드 parbegin A; B; C; parend 는 SPMD 병 렬순환과 등가로 표현할수 있 다. 

Parfor(i=0; i<3; i++){ 

If (i=0) A; 

If (i=l) B; 

If (i=2) C; 

} 

다중코드와 단일코드. 현재 병렬콤퓨터 특히 MPP 와 COW 에서 사용되는 많은 프로 
그람작성언어들은 병렬블로크나 병렬순환구성을 제공하지 않는다. 이러한 체계들에서 
MPM 병 렬성을 다중코드방법 에 의 하여 서술한다. 실례로 parbegin A; B; C; parend 를 서술 
하는데 서 사용자는 세 가지 프로그람을 쓰고 그것 을 를파일 하여 세 가지 실 행프로그람 A, 
B, C 를 발생시킬 필요가 있다. 실행프로그람들은 셀스크립트에 의하여 세개의 프로쎄스 
마디들에 적재된다. 


Run Aon node 1 
Run Bon node 2 
Run Con node 3 


프로그람 A , B ， C 는 순차프로그람 더 하기반복을 위한 서 고호출이다. SPMD 프로그람은 
단일코드방법을 사용하여 서술될수 있다. 실례로 병렬순환 parfor ( i :=0; i < N ; i ++){ foo ( i )} 를 
서술하는데서 사용자는 오직 다음과 같이 하나의 프로그람을 쓸 필요가 있다. 

Pid = my _ process _ id () ; 

Humproc = number _ of _ processes (); 

For ( i = pid ; i < n ; i = i + numpro ) foo ( i ); 

이 프로그람은 하나의 실 행프로그람 A 로 콤파일 러된다. 그것 은 명 령 ran 
A _ numnodes 을 실 행하여 n 마디 들에 적재 된다. 단일코드방법 은 사용자에 게 더 편리하다. 
그것 은 같은 프로그람이 SPMD 방식 에서 각이한 수의 마디 들에서 반복하여 실행되 게 한 
다는것을 알아야 한다. 
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자료-병 렬구성 자료병 렬언어 들에 서 (실례 로 Fortran 90과 MPF ) SPMD 병 렬성 은 자료병 
렬구성을 사용하여 구성될수 있다. 실례로 병렬순환 

parfor ( i = l ; i <= N ; i ++){ C [ i ]= A [ i ]+ B [ i ];} 

를 서 술하기 위하여 사용자는 배 렬 배 정 C = A+B 또는 다음순환 

forall ( i = l ， N ) C [ i ]= A [ i ]+ B [ i ] 

를 쓸수 있다. 

2. 3. 2. 정적병렬성과 동적병렬성 

프로그람의 구성방식은 그것이 자기의 부분품요소들로 이루어 지는 방도를 가리킨 
다. 실례로, 코드 if ( c ) SI else S 2 은 구성방식 “ if (…) ". else "，” 를 가지며 세개의 부분품 
C , SI , S 2 를 가진다. 프로그람은 그것 의 구성 방식 과 요소프로쎄 스들이 실행시 간에 앞서 
(실례로 콤파일러，련결편집시，또는 적재시) 결정될수 있을 때 정적병렬성을 표시한다. 
다른 경 우에 프로그람은 동적병 렬성 을 표시 한다고 말하며 그것은 프로쎄 스들이 실행시 
에 생성 되 고 끝낼수 있다는것 을 의 미한다. 

정적병 렬프로그람보다 적은 실행시 간부가처 리를 가지 므로 동적병 렬프로그람들보다 
더 효과적으로 되게 하는 경향성이 있다. 

왜 냐하면 많은 초기 화조작(기 억배정，탄창배정，체 계 표초기 화 등등)을 피할수 있기때 
문이 다. 동적병 렬프로그람은 보다 유연해 지는 경 향을 가진다. 정적병 렬성은 2.3.1 의 구성 
들에 의하여 표현될 수 있 다(실 례 로 병 렬 블로크，병 렬 순화). 동적병 렬성 은 보통 몇 가지 종 
류의 fork 와 join 조작을 통해서 표현된다. 그것들은 또한 단일코드나 다중코드방법을 사용 
하여 서술될수 있다. 실례로 병렬블로크 parbegin P , Q , R , parend 는 P , 公 묘가 있으면 정 
적 이 다. 그러 나 코드 while ( c >0) begin fork ( foo ( c )); c:=boo ( c ); end 는 동적 병 렬 성 을 리 용 
한다. 왜 냐하면 그것은 다만 실행시 에 fork 조작이 새 로운 프로쎄스를 생성하도록 몇번 실 
행되는가 하는것으로 알려 져 있기때문이다. 

Fork/Join 지 금까지 fork / join 의 여 러 가지 견본들이 있 었 다. 우리 는 한가지 실례 를 사 
용하여 일 반적내 용을 설명한다. 

다음프로그람은 세개의 프로쎄스를 가지는데 여기서 A 는 주프로쎄스로서 프로그람 
이 실행을 시작할 때 자동적으로 생성된다. 즉 


Process A : 


begin 

Z := l ; 

fork ( B ); 



end 

end 


Process B : 

begin 

fork ( C ); 

X := foo ( Z ); 

join ( C ); 

output ( X + Y ); 


Process C : 
begin 

Y := boo ( Z ); 

end 
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프로쎄 스 A 가 fork 조작을 실행하여 새 로운 프로쎄스 묘를 생성하자. 여 기서는 A 와 병 
렬로 실행을 시작한다. 다른 말로 말하면 표가 실행되는 동안에 A 는 그것의 그다음명령문 
[바꾸어 말하면 배 정 T := foo (3)] 을 실 행하는데 로 넘 어 간다. 

A 를 표의 어 미프로쎄 스라고 하며 B 를 A 의 새 끼프로쎄 스라고 말한다. 두 프로쎄 스 
는 비동기로 실행된다. 묘가 실행되기전에 A 를 끝내는것은 가능하다(바꾸어 말하면 그 
것 은 end 명 령 에 도달한다.). 어 떤 경 우에 A 는 B 가 끝날 때 끝날수 있다. 일 반적 으로 어 
미프로쎄스는 모든 새 끼 들이 끝나기 전에 는 끝날수 없 다. 

때때로 어미는 그것의 코드끝에 도달하기전에 어떤 새끼를 기다리게 한다. 그것은 
Join 명 령 문을 사용하여 수행 될 수 있다. 우의 코드들에 서 프로쎄 스 표는 련 이 어 또 다른 
프로쎄 스 C 를 생 성한다. 묘에 있는 출력 명 령 문이 C 에 의하여 계산되 는 변수 꾼의 값을 요 
구하기때문에 join ( c ) 명령문은 출력명령문앞에 삽입된다. Join ( c ) 명령문은 B 가 임의의 다음 
명령문실행에로 넘어 가기전에 C 가 끝날 때까지 기다리게 한다. 

Fork 와 join 은 대 단히 융통성 있는 구성들이 다. 그러 나 그것들은 구성 방식화되 여 있지 
않다. 그것들은 순차언어들의 goto 와 류사하며 심중하게 사용되 여 야 한다. 많은 병 렬계산 
프로그람들은 오직 병 렬블로크와 병 렬순환만을 사용하여 서술될수 있다. 

2. 3. 3. 프로쎄스그룹화 

병 렬응용에서 프로쎄스들은 보통 독립 이 아니 다. 그것들은 서로서로 호상작용할 필 
요가 있 다. 이 미 2.2.6 에 서 호상작용하는 프로쎄 스들을 그룹으로 일 정작성 기하는것 이 필 
요하다는것 을 보았다. 2.4 에 서 그롭개 념 은 집 합적호상작용을 지 원하는것 과 같이 다르게 
사용한다는것 을 고찰하였 다. 

프로쎄 스그룹은 프로쎄 스의 순서화된 모임 이 다. 성 원프로쎄 스의 수를 그룹크기 라고 
부론다. 매 그룹은 그룹 正)를 가진다. 그것 은 병 렬 프로그람에 서 그룹을 유일하게 식 별 한 
다. 매 성 원프로쎄스는 그룹에 서 위 수를 가진 다. 그것 은 보통 0부터 n _ l 까지 의 옹근수이 
고 n 은 그롭크기 이 다. 성 원프로쎄스는 위 수와 그룹 ID 에 의하여 유일 하게 식 별될수 있 다. 

그룹개 념 을 지 원 하는데 서 병 렬 프로그람언 어 는 그룹을 관리하는 기 능들을 제 공할 필 
요가 있다. 그것은 그룹의 생성，소거，그룹 ID ， 그롭성원 및 성원위수 등등을 알아 보기 
와 갈은것 이 다. 

2. 3. 4. 배 정 문 제 

병렬프로그람은 일정한 자료대상에 대하여 일정한 계산(작업부하)을 수행해야 한다. 
배정은 자료의 작업 부하를 프로쎄 스들로 구역 분할하는것과 프로쎄 스들을 마디들(처 리 기 
들)에 로 넘기는것을 의미 한다. 

항목 1.3.3 과 식 (1.4) 에서 좋은 배 치도식은 작업부하(바꾸어 말하면 5/ w 를 감소한다.) 
를 균등하게 하며 부가처리 (바꾸어 말하면 (tp+to )/( wt f )+( a to )/ tf ) 를 최소화하여 체계가 
휴식하거 나 호상작용하면서 시 간을 랑비 하는 대 신에 대부분이 지적된 시 간동안에 계산하 
면서 일하게 해 야 한다. 이것은 병 렬성 을 잃지 말고 수행되 여 야 한다는것 이 다. 
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병렬성 구역분할의 중요한 과제는 적당한 병렬성과 립도를 선택하는것이다. 병렬프 
로그람의 병렬성정도 ( DOP ) 는 동시 에 실행될수 있는 요소프로쎄스의 수로서 보통 정의 
된다. 량적척도로서 평균병렬성으로 알려 져 있는것이 있는데 3.5.1 에서 정의된다. 그것 
은 자주 프로그람의 전체 DOP 를 평 가하는데 사용된다. 

립도 립도는 두개의 병 렬성 사이에 실행되 는 계산작업부하 또는 호상작용으로 정의된 
다. 위상병 렬모형 (1.3.3) 에 대 하여 거 침도는 한개의 처 리기 가 초걸음에서 수행하는 계산작 
업 부하，로 정 의할수 있 다. 

립도의 단위는 명 령의 수，류점조작의 수 또는 초이 다. grain 과 크기는 흔히 작은，중 
간，큰것으로서 정의된다. 대략적인 분류는 결과크기가 200보다 작으면 된다. 200부터 
2000까지는 중간，수천 또는 그 이상 의 계산조작으로서는 크다고 본다. 

립도란 말은 때때로 프로쎄스크기 바꾸어 말하면 어떤 부분품프로쎄스(첫 단계안의 
것 이 아니 다.)안에 있 는 프로쎄 스크기 를 가리키 는데 사용하군 한다. 이 런 식 으로 조작준 
위 (또는 명 령 준위 )병 렬 성 은 한 병 렬 프로그람안에 있 는 부분품프로쎄 스가 하나 또는 몇개 
의 계산조작 또는 기계명 령 으로 작업할 때 사용한다. 용어 블로크준위는 개 별적프로쎄 스 
의 크기 가 배정명 령 문들로 이 루어 진 블로크인 경 우를 의 미한다. 블로크준위병 렬성의 특 
수한 경 우는 순환준위 인 데 여 기 서 순환의 몇 개 의 프로쎄 스를 생 성 한다. 매 개 는 몇 개 의 배 
정병렬로 이루어 지는 반복을 실행한다. 부분품프로쎄스의 매개가 수속호출로 구성될 때 
수속준위병 렬성 을 가진다. 때때 로 그것 을 과제준위병 렬성 이 라고 부론다. 병 렬성 정도와 
grain 크기는 자주 상반되며 거기서 다른것이 같다고 하면 grain 크기의 증가는 병렬성을 감 
소시 키 는 경 향이 있 으며 grain 크기 를 감소시 키 는것 은 병 렬 성 정 도를 증가시 킨다. 한편 실제 
적 인 병 렬콤퓨터 들에 서 병 렬성 정도와 통신부가처 리 그리 고 동기 화는 비 례 관계 를 가진 다. 
다른것 이 같다고 하면 병 렬 성 정 도의 증가는 흔히 부가처 리 를 증가시키 고 병 렬 성 정 도의 
감소는 부가처 리 를 감소시 키 는 경 향이 있 다. 

암시적배정과 명시적배정 명시적배정에서 사용자는 자료와 작업부하를 어떻게 배정 
하겠는가를 명시적으로 서술할 필요가 있다. 암시적배정에서 이 과제는 콤파일러와 실행 
시 체계 에 의하여 수행된다. 다양한 결합형 태들이 가능하다. 실례 로 대 칭 다중처 리기들에 
서 보편적 인 방법 은 프로쎄 스들이 접 근할수 있게 자료들이 중심공유기억안에 놓이 게 하 
는것 이 다. 작업부하는 프로쎄스들에 정적 으로 또는 동적으로 분산된다. 한 프로쎄스가 한 
토막의 작업부하에 배정될 때 그것 은 공유기억기 로부터 필요한 자료를 받는다. 

분산형 기억체 계들에서 널리 사용되는 방법 은 소유자계산규칙이 다. 즉 자료는 우선 
프로쎄스들안에서 분산된다. 프로쎄스 P 가 변수 ； c 에 배정될 때 P 는 ; c 의 소유자라고 부른 
다. 표와 관련 한 계 산은 소유자프로쎄 스에 의하여 수행 된 다. 자료와 작업 부하배 정 은 성 능 
에 큰 영향을 준다. 중요한 연구과제는 대부분시간동안에 프로쎄스가 요구하는 자료들이 
가까이 놓이도록 어 떻게 자료들을 배정하겠는가 하는것 이 다. 이것 을 자료국부성의 리용 
이라고 부론다. 그것은 캐쉬，기억기오유，통신부가처리를 줄인다. 
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2.4. 호상작용과 통신문제 

호상작용은 이것들의 프로쎄스가 서로의 트랜잭션에 영향을 주는 활동이나 조작이다. 
어떤 사람들은 간단히 호상작용조작을 통신이라고 부른다. 우리는 용어 호상작용을 쓴다. 
왜냐하면 그것에는 더 많은 의미가 담겨 져 있기때문이다. 호상작용과 관련한 몇가지 중요 
한 문제들이 있다. 즉 병렬체계에 지원되는데 필요한 호상작용과 호상작용방식，형태，경쟁 
적 인 호상작용과 협 동호상작용들이 다. 

2. 4. 1 • 호상작용조작 

간단히 세 가지 조작 즉 자주 사용되는 호상작용의 형 태들을 소개 한다. 즉 통신，동기 
화，집합조작들이다. 이 책에서 이 조작들은 주로 종합적으로 통신이라고 부론다. 그러나 
그것 들사이 를 구별 하는것 이 중요한다. 왜 냐하면 그것 들은 구성 방식 과 프로그람작성 지 원 
에서 요구가 서로 다르기때문이 다. 

통신 통신조작은 자료값들을 둘 또는 그이상 프로쎄스들에서 교환한다. 공유기억기프 
로그람에서 한 프로쎄스는 공유변수값을 계산할수 있고 공유기 억기 안에 그것을 기 억 할수 
있다. 다음에 또 다른 프로쎄스는 이 값을 변수를 참조하여 받을수 있다. 이것을 공유변 
수를 통한 통신이 라고 부론다. 

수속준위 병 렬 성 을 사용하는 다중처 리 기 프로그람은 역 시 어 미 프로쎄 스가 어 떤 수속을 
분기시켜 실례 로 fork ( foo ( x )) 를 실행하여 새끼 프로쎄 스를 생성하게 할수 있다. 

자료값들은 새 끼프로쎄 스와 어 미프로쎄 스사이 에 서 파라메터 로써 교환될 수 있다. 이 
것 을 파라메터교환을 통한 통신이 라고 부론다. 마지 막으로 다중를퓨터모형 에서 프로쎄 스 
들은 통보문넘기기를 통하여 통신할수 있다. 

동기화 동기화조작은 프로쎄스들이 서로 다른것을 기 다리게 하거 나 기 다리는 프로쎄 
스들이 실행 을 계 속하게 한다. 동기 화조작에 는 각이한 형 태 들이 있 다. 

• 원자성 프로쎄스가 주로 하나의 단일한 원자조작으로서 조작렬을 요구한다(정의 

1.2 참고). 아래에서 실례를 보자. 

Parfor ( i = l ; i < n ; i ++){ 

Atomic { x = x + l ; y = y ~ l ;} 


실마리어 atomic 는 « 프로쎄스중에서 매개가 두개의 배정을 하나의 원자조작으로 실행해 
야 한다는것을 가리킨다. 병 렬체 계 에서 원자성을 실행 하기 위 하여 암시적동기화가 수행된다. 
• 조종동기 화 조종동기 화조작을 실 행하는 프로쎄스는 프로그람실 행 이 일 정 한 조 

종상태에 도달할 때까지 기 다릴수 있다. 조종동기화의 보편적 인 실례로서 차단 
동기화가 있는데 다음코드에서 보게 된다. 
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Parfor ( i = l ; i < n ; i ++){ 
Pi 

Barrier 

Qi 


여기에 자개의 프로쎄스가 있다. P / 를 수행하는 ᅣ•째 프로쎄스다음에 barrier 가 따르고 
그다음 솨가 놓인다. P / 를 끝내 고 barrier 명 령 문에 도달할 때 모든 다른 프로쎄스가 역시 
그것을 barrier 에 도달할 때까지 기 다려 야 한다. 또 다른 조종동기 화구성은 림계 범위 인데 
아래 실례에서 본다. 

Parfor ( i = l ; i < n ; i ++){ 

Critical { x = x + l ; y = y — 1;} 

} 

림 계범위는 서 로 배 타적 이며 그안에서 오직 한 프로쎄스가 한 시각에 두 배정 을 실 
행하게 한다. 대조적 으로 다중프로쎄스들은 원자성 이 집 행되는 동안에 그것의 원자범위 
들을 실 행할수 있 다. 

• 자료동기 화 자료동기 화조작을 실행하는 프로쎄스는 프로그람실행 이 일정한 자료 
상태들 (2.2.1 참고)에 도달할 때까지 기다릴것이다. 실례로 wait ( x >0) 명령문을 실 
행하는 프로쎄스는 변수 x 가 정의될 때 까지 지 연된다. 자료동기 화조작의 실례들 
은 열쇠 채 우기，조건부림 계 범 위，감시 기 사건들을 포함한다. 대 부분 현재 체 계 들에 
서 원자성은 자료동기화를 통하여 실현되는데 다음과 같이 실현된다. 

Parfor ( i = l ; i < n ; i ++){ lock ( s ) ; x = x + l ; y=y~l ； unlock ( s );} 

여기서 열쇠채우기동기화는 신호기발 요에 의하여 자료상태에 의존한다. 조종동기화 
는 일 반적 으로 자료동기 화보다 더 쉬 우며 수자가 더 융통성 이 있다. 동기 화는 7장과 14 
장에 서 자세하게 론의 할것 이 다. 

집 합 집 합조작은 병 렬프로그람의 요소프로쎄 스들이 계산한 요소결과들을 혼합하여 완 
전한 결과를 발생 시키 는데 리 용된다. 그것 은 초기 단계 의 별 로써 실현되 며 매 개 첫 단계 는 
짧은 계산과 간단한 통신 또는 동기화로 구성되 여 있다. 

하나의 실례로 두 벡토르 A 와 B 의 스칼라적을 계산하는 다음프로그람을 고찰하자. 
여 기 서 aggregate_sum 은 부분 합，자0]， x [ l ], …， x [ n ~ Y \ 은 통합 하여 최종결과 
inner _ product = x [0]+ x [ l ]+-• -+ x [ n - l ]- i - 발생 한다. 

Parfor ( i =0; i < n ; i ++){ 


80 




X [ i ]:- A [ i ]* B [ i ]; 

Inner _ product := aggregate _ sum(x [ i ];) 

} 

이 합연산을 축소연산이라고 부론다. 왜 냐하면 여 러 값들을 단일 값으로 감소시 키 기 
때 문에 집 합의 다른 형 태 로는 주사(역 시 병 렬앞불이 )，하강알고리 듬，상승알고리 듬 [86_87, 
518] 기타 등등이 있다. 

실례 2.6 재귀적 인 두배축소연산 

ra 개 의 프로쎄 스 P (0), P ( l ), …, P ( n - l ) 이 있 다고 하자. 배 렬요소 a [ i ] 는 처 음에 프로쎄 스 
P ( i ) 에 분산된다. 축소 sum = a [ l ]+".+ a [ n - l ] 는 프로쎄 스 P [ i ] 를 위한 다음의 단일코드프로그 
탐에 의하여 서술될수 있다. 여 기서 i =0 부터 n -1 까지 이 다. 

Sum = a [ i ]; // 매 프로쎄 스는 국부변수의 합을 가진 다. 

For ( j = l ; j < n ; j = j *2){ // log ( n ) 초걸음들 

lf ( i % j =0{ 

프로쎄 스 P ( i * j ) 의 합을 국부변수 tmp 에 넣 기 



더 하기 는 «=8인 경 우 그림 2-8 에 서 보는바와 같이 log n 첫 단계 내 에 나무형 식 으로 
실현된다. 매 첫 단계에서 프로쎄스들은 다른 프로쎄스로부터 하나의 스칼라를 받고 중간 
부분합을 계 산하기 위하여 스칼라더 하기 를 수행한다. 마지 막에 프로쎄 스 P (0) 은 최 종결 과 
를 포함한다. 



□ □□□□□ 


그림 2-8. 재귀적인 두배연산 


이것은 집합의 주요한 특성 이 다. 즉 그것은 첫 단계의 렬로 이루어 지며 첫 단계안 
에 서 매 프로쎄 스는 계 산의 적 grain 을 수행 하며 그다음 적 은 통보를 통신한다. 
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2. 4. 2. 호상작용방식 

그림 2-9 를 고찰하자. 여기서 «개의 프로쎄스 P b •••, P „ 은 호상작용코드 C 를 실행 
하며 호상작용한다. N 개 처리기들을 호상작용의 관계자(또는 참가자)들이라고 부론다. 
코드 C 가 모든 참가자들이 C 에 도달했을 때까지 실행될수 없으면 호상작용동기적 이 라 
고 부론다. 처 리기 C 에 도달할 때 다른 프로쎄스들을 기 다리지 않고 C 를 수행하도록 
전진할수 있을 때 를 호상작용비 동기적 이 라고 말한다. 



그림 2-9. n 개 처리기사이 호상작용 


n =2 이면 호상작용을 두 관계 자호상작용이 라고 부르며 «이 2보다 크면 다중관계자호 
상작용이 라고 부론다. 두 관계 자통신을 점대 점통신이 라고 부르며 이 때 한 프로쎄스는 또 
다른 프로쎄 스에 로 통보를 보낸 다. 다중호상작용은 특히 집 합적호상작용이 라고 부론다. 

오직 동기호상작용을 가지 는 병 렬프로그람들은 리해 하기 더 쉽다. 왜 냐하면 호상 
작용코드 C 가 실행될 때 모든 참가자프로쎄스들은 C 에 도달하기때문이다. 다른 말로 
C 가 실행 을 진행할 때 프로그람은 하나의 조종상태 에 놓인다. 

비동기호상작용에 서 프로쎄 스가 호상작용코드실 행 을 출발할 때 프로그람은 각이한 
조종상태 들에 놓일수 있다. 다른 프로쎄 스들의 임의 의것 은 0에 도달하지 말아야 하는 
것，도달해 야 하는것， C 를 통과한것 이 있 을수 있다. 그러 나 비 동기호상작용은 보다 다 
루기 쉬 운 경 향이 있다. 많은 병 렬프로그람들은 오직 다중관계 자동기호상작용만을 요 
구한다. 입력과 출력조건을 설정하는데 여러가지 방도가 있다. 프로쎄스 모가 호상작용 
코드 C 에 직면할 때 많은 호상작용방식들이 가능하다. 프로쎄스 모의 다음상태는 호상 
작용코드 C 에 관하여 정 의 될 수 있다. 

• In 프로쎄스 모가 코드 C 에 있고 방금들어가기， C 부분을 끝내기 또는 여전히 C 
를 수행하고 있는것을 포함한다. 

• Out 프로쎄스 모가 C 안에 없다.(도착하지 않았거 나 랄출하였다.) 

• Arrived 프로쎄 스 모가 C 에 방금 도착했지 만 들어 가지 는 않았다. 

• Finished 프로쎄스 모가 C 코드부분을 끝냈지만 아직 랄출하지 않았다. 

두 관계 자호상작용에 대 하여 4 4 =256결 합이 있을수 있 다. 오직 실제 적 으로 몇개 만이 
사용된다. 일부 실례들을 표 2-3 에서 보여 준다. 

세가지 호상작용방식이 널리 사용된다. 
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표 2-3 _ 입력과 출력조건의 결합 


1 입력조건 

출력 조건 

실례 

자체 

기 타 

자체 

기타 

도착 

X 

In 

X 

보내기/받기 차단 

도착 

X 

끝 

X 

보내기 차단 

도착 

X 

끝 

끝 

받기 차단 

도착 

도착 

끝 

끝 

동기 보내기/차단 (CSP) 

도착 

도착 

끝 

In 혹은 끝 

장벽 

도착 

Out 

끝 

Out 

림계 구역 


• 동기적 이 방식에서 모든 관계자들은 호상작용이 시작되기전에 도착해야 한다. 어 
떤 관계자프로쎄스는 호상작용을 탈출할수 있고 그다음 조작을 계속할수 있다. 
CSP 에서 보내기/받기조작들은 하나의 실례이다. 호상작용이 동기적인가를 분간하는 
간단한 방도는 두 장벽검사이 다. 즉 한 차단은 호상작용코드앞에 놓고 다른것은 뒤 
에 놓는다. 결과 엄어 지는 병렬프로그람이 원래의것과 정확히 같은 의미론을 가진 
다면 호상작용은 동기 적 이 다. 그렇 지 않으면 비 동기 적 이 다. 

• 차단 다른 관계자들이 있는가 없는가에 관계없이 관계자는 그것이 도착하자마자 
호상작용에 들어 갈수 있다. 그것은 호상작용이 부분적으로 끝났을 때 호상작용 
을 탈출할수 있다. 다른 관계 자들은 호상작용코드에서 끝나지 않고서는 들어 갈 
수 없다는것을 알아야 한다. 차단은 하나의 실례이다. 그것의 완료는 문을 내보 
내지 만 목적대상에서 반드시 받지 않는다는것 을 의미한다. 

• 비차단 관계 자는 도착하자마자 들어 갈수 있 다. 그것 은 호상작용의 부분을 끝내 기 
전에 호상작용을 탈출할수 있다. 비차단은 하나의 실례 이 다. 그것의 완료는 프로 
쎄 스가 보내 기 에 응답된 다는것 을 의 미한다. 통보문은 반드시 내 보내 야 한다. 

2. 4. 3. 호상작용패턴 

호상작용패런은 어느 관계자가 다른 어느 관계자에게 트랜잭션을 주는가를 의미한다. 
그것의 형태가 콤파일시에 결정될 때 호상작용은 정적이라고 말하며 그렇지 않는 경우 
동적 이 라고 말한다. 동적 호상작용의 특수경 우는 관계 자그롭이 동적 으로 변화될수 있을 
때 일어 난다. 실례로 프로쎄스들은 실행시에 어떤 그룹을 탈퇴하거나 결합할수 있는데 
이것은 동적그룹화로 알려 져 있다 [261]. 

N 관계자호상작용에서 형태가 프로쎄스첨수로서 간단한 기능으로 서술될수 있을 때 
호상작용은 정 규형태 ( regular ) 를 가진다고 말한다. 첨수 호와 보가 주어 졌을 때 /째 프로쎄 
스가 j 째 프로쎄스에 영향을 주겠는지를 상수시 간과 공간에서 결정될수 있는 알고리듬이 
있 다면 호상작용은 정 규형태 이 다. 


실례 2.7. 점대점 과 집 합통신모형 

대역적인 정규통신이 그림 2-10 에 제시되여 있는데 얼마나 많은 몇개의 송신자와 
수신자가 통신에 포함되는가에 따라 다음과 갈은 네개의 부류로 갈라 볼수 있다. 
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• 하나 대 하나 이 것은 점대 점통신이 라고도 한다. 그림 2-10 자)에서 와 같이 하나 
의 송신자와 수신자가 있다. 

• 하나 대 여러 이것은 방송을(그림 2-10 U ) 포함하는데 여기서 한 프로쎄스 
(뿌리 라고 부르는)는 모든 프로쎄스들에 갈은 통보문을 내보내는데 그자신도 
포함된 다. 산란조작(그림 2-10 n ) 은 뿌리 가 각이한 프로쎄 스에 로 각이한(또 
는 개 별화된) 통보문을 보낸다는 점 에서 방송의 일반화이다. 

• 여러 대 하나 이것은 수집을 포함한다(그림 2-10 5). 여기서 뿌리프로쎄스는 
구별된 통보를 매개 프로쎄스로부터 받는다. 전체로 뿌리는 n 개 통보를 받으며 
여기서 «은 그룹크기이다. 또 하나의 실례는 축소(그림 2-10 A ) 이다. 그것은 
매 개 프로쎄 스로부터 하나씩 n 개 의 국부값을 뿌리프로쎄 스의 하나의 최 종값으 
로 모은다. 

• 여러 대 여러 가장 간단한 형식은 치환이다. 여기서 프로쎄스는 하나이상의 프로쎄 
스와 주고받기하지 않는다. 치환의 실례 는 그림 2-10 비에서 순환밀기 이다. 또 하 
나의 실례는 주사(그림 2-10 이이다. 그것은 «개의 국부값을 n 개의 최종값으로 종 
합하는 계 산에 의하여 축소를 일 반화한다. 전체 적 교환(그림 2-10 n ) 에 서 매 개 프 
로쎄스는 개별화된 통보를 «개 처리기의 매개에로 보내는데 그자체도 포함된다. 


1_ PI 1 Pll 1 1 

3 —> P 2 i I P 2 1 3 I - 

5 P 3 乂 1 \ P 3 1 S I 


1) 점대점 : P 1 은 1 을 P 3 으로 보낸다 


立丄 ■ 


니 방송 : P 1 은 1 을 모두에게 보낸 다 


P 1 . 
P 2. 
P 3 . 


Pll L 3:5 j Pll 1 I P 1 

P 2 [ I P?\ 3 —> P 2 

P 3 l 국 I Pll S I P 3 


1 , 3,5 


r) 산탄 : PI 은 한개값을 매 마디 i 낸 p 候 ᅳ 2) 수집 : P1 은 매 마디로부터 한개 
값을 얻는다 


Pi I 1- 니 I Pi iX7 ^ pi j _ 

P2 4, 5. 6 —> P2 2, 5, 8 P2 」 _ 

P3 I 7 8.9 \ P3I 3. 6. 9 P3 S 


P 1 
^ P 2 
P 3 



U) 전체 i 환:매 마디는 구별되는 비 밀기:매 마디는 한개 값을 다음 

통보문을 매 마디에 보낸다 마디에 보내며 이전마디로부터 

값을 받는다 


PI 1 

ᄂ P 1 

1.9 

P 1 

1 

P 1 

]王 

P 2 3 

— > p 2 

다 

P 2 


— > P 2 

3,4 

P 3 5 

P 3 

J _ 

P 3 

5 

P 3 

- L 9_ 


a) 감소 : pi 은 함 o) 주사 : pi 은 1 을 얻고 P2 은 1 + 3 = 4, 

1 + 3 + 5 = 9 을 얻는다 를 엄으며 P3 은 1 + 3 +5 = 9 륜 얻는다 ■ 
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그림 2-10. 점 대 점 통신연산과 집 중통신연산 





사용자가 호상작용방식에서 어떤 구속을 받지 않는 동안 (바꾸어 말하면 동기 또는 
비동기성) 호상작용의 형태들은 보통 응용에 의존된다. 병렬언어는 보통 동적 및 비정규 
호상작용패 린들에 대 하여 제공된다. 비정규통신의 한 부류는 정확한 통신형 태를 모를 
때 /厂관계(정의 1.6 참고)이다. 

매개 마디는 최대로 ft 단어들을 여러 마디들에 보내며 매 마디는 최대로 A 단어들을 
받는다. 통신형태를 모르면 통신알고리듬은 최악의 경우에 대처해야 한다. 왜냐하면 대 
부분의 뇨관계알고리 듬은 전체 적교환에 기 초하기 때 문이 다. 

2. 4. 4. 협동호상작용과 경쟁호상작용 

이 책에서 병렬프로그람에 대하여 말할 때 초보적으로 병렬응용프로그람 즉 사용자 
(프로그람작성자)가 어떤 병렬콤퓨터우에서 실행되게 작성한 응용프로그람을 개발하는것 
과 관계 된다. 이 러 한 프로그람들은 체 계 프로그람(실례로 병행 조작체 계 ) 과 다르다. 

하나의 주요한 차이는 프로쎄스들이 여러가지 방식에 따라 호상작용한다는것이다. 
병 렬조작체 계 에서 프로쎄 스들은 주로 공유자원들에 대 하여 경 쟁하면서 호상작용한다. 우 
리는 이러한 호상작용을 경쟁적인 호상작용이라고 부론다. 다른 한편 어떤 함수를 계산 
하는데 서 병 렬응용프로그람들에 있는 프로쎄 스들이 협 조하는 경 우가 있 다는것 이 다. 이 
프로쎄스들이 호상작용할 때 기본문제는 하나의 자원을 안전하게 공유하지 못하는것이다. 

오히 려 그것들은 정보를 서 로 통신하여 서 로 동기화하거 나 부분적 으로 계산된 값들 
로부터 결합한 값을 발생하려고 한다. 경쟁호상작용들은 보통 프로그람의 자료상태에 의 
존하고 동기화조작을 쓸것을 요구하며 한편 협조동기화조작은 오직 프로그람의 조종상태 
에만 관계한다. 


표 2-4 _ 경쟁 대 협동 병렬프로그람 


속성 

경쟁프로그람 

협동프로그람 

응용실례 

조작체계망도구 

편미분방정식， 

리산사건모의 

립도 

A Few Large-Grain 

Heterogeneous Processes 

Many Small-Grain 

Homogeneous Processes 

호상작용실례 

림계구역，생산자-소비 자, 
독자-필자， 

장벽동기화，방송，치환행 
렬축소，주사，경사 work 
pool 혹은 대기 

호상작용에 

대한 구조 

차단，신호기，사건, 조건림 
계구역，모니터 

장벽，꺼내기-첨가 
일치성구역 

성질 

비종단，미 i 정 

종단，확정 


사용자는 일반적으로 그것의 병렬계산프로그람을 끝낼수 있고 결정적인것을 기대한 
다(즉 프로그람들은 중지하고 결과는 유일해야 한다). 이와는 반대로 병렬조작체계코드는 
보통 비종결，비결정적이다. 프로그람의 두 형태에 대한 몇가지 중요한 차이들이 표 2-4 
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에서 간단히 제시한다. 

력사적 으로 경쟁 호상작용들은 훨씬 더 많은 관심을 끌었으며 많은 구성 이 제 안되 였 
는데 그것 은 차단，신호기，사건，조건부림계구역，감시기 [3 刀와 같은것 이 다. 다만 몇년전 
에 많은 다중처 리 기 에서 사용된 프로그람작성언어들은 오직 경 쟁호상작용들에 대 한 구성 
만을 제 공하였 다. 

이러한 언어에서 우선 협조적호상작용은 자원공유호상작용에로 변환될(사용자에 의 
하여 ) 필 요가 있 으며 그다음 경 쟁호상작용프리버 트브들을 통하여 실 현될 것 을 요구한다. 
이러한실현에 대한 방도는 효과적이 못될뿐아니라 또한 리해하고 검사수정하기도 어렵 
다. 이 책의 주되는 목적은 장벽과 4편에서 론의되는 일관성령역과 갈은 구성을 연구하 
는것 이 다. 이 구성 들은 특히 협 조호상작용을 위해 설계된다. 

2.5. 병렬프로그람의 의미론 

의미문제는 병렬프로그람의 다양한 거동적특성을 가리킨다. 여기서는 두가지 문제 
즉 종결성과 결정성만을 론의한다. 이 문제들은 병렬프로그람으로 하여금 언제나 끝내고 
결정 하게 하므로 중요하다. 사실상 계산을 진행하는 대부분응용들가운데서 동일한 점은 
물리적세계를 모형화하는것 이 다. 계산물리학，계산화학，계산생물학 등은 그것의 좋은 실 
례로된 다. 

병렬계산이 과학실험에서 효과 있게 되자면 그것은 두개의 기본계산속성 즉 종결성 
과 결정성을 가져야 한다. 그 목적은 유한시간에 끝나는것을 담보하고 계산실험이 다른 
사용자들에 의하여 반복될수 있게 하는것이다. 

2.5.1. 프로그람종결 

종결문제는 프로그람을 표준적으로 종결하든가 그렇지 않으면 비정지의 가능한 리유 
를 취 급한다. 비 종결 에 는 세 가지 형 태 들이 있는데 그것 은 무한순환， livelock 와 교착이다. 

정의 2.5 프로그람이 항상 실행을 끝내고 임의의 초기상태로부터 최종상태에로 들어 
간다면 종결 이다. 어떤 초기상태 로부터 정지 함이 없이 련속적 인 실행을 하는 상태 에 들 
어 갈수 있으면 프로그람은 발산한다. 프로그람이 최종상태에 있지 않고 련속실행함이 
없이 실행도중에 멈추어 서 교착한다. 

비 종결성 은 순차프로그람과 병 렬 프로그람에 서 로 각이하게 나타난다. 순차프로그람 
은 교착되지 않는다. 따라서 순차프로그람의 실례는 끝나지 않으면 그것은 발산한다. 
발산하는 실례적인 순차프로그람은 무한순환 ” while ( x >0 x := x + l ) "이다. 병렬프로그람 
에서 발산의 두번째 형태가 있는데 그것을 Livelock 라고 부르며 거기서 몇가지 프로쎄 
스들이 호상간섭으로 하여 무한순환에 빠진다. Livelock 의 간단한 실례는 다음의 코드 
이 다. 


Par{ 
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병렬프로그람은 교착으로 하여 비종결일수 있다. 콤파일러나 실행시 체계는 모든 비 
정지상황을 탐지해야 한다. 이 문제는 튜링기계문제와 등가이며 비결정성이다. 따라서 
병 렬언어 가 교착과 Livelock 를 방지하거 나 콤파일러 와 실행시 체계 가 그것들을 탐지하게 
하도록 설 계하는것 이 중요하다. 

이 런 견지 에서 암시 적병 렬성 을 리 용하는 프로그람작성체계는 고급하다. 왜 냐하면 이 
언어 는 데 드로크와 러 브 로크가 발생하지 않는다는것 을 담보하기 때 문이 다. 

2. 5. 2. 프로그람결정성 

우선 두 개념 즉 결정성과 결정론의 차이를 구별할 필요가 있다. 결정론은 유일한 
계산(바꾸어 말하면 원자조작들의 유일한 렬)을 의미하고 결정성은 유일한 최종결과를 
의미한다. 또한 결정론의 정의는 프로그람이 같은 초기상태를 가지고 여러번 수행된다면 
이 매개의 각이한 실행에서 갈은 유일한 계산렬이 얻어 진다는것을 의미한다. 

결정성의 정의는 같은 초기상태로부터 각이한 실행에 대하여 최종결과는 같다는것을 
의미한다. 약속에 기초하는 순차프로그람들은 대부분 결정성을 가지며 따라서 확정적 
이다. 그러나 순차프로그람들에서 비결정성은 미지의 현상은 아니다. 어떤 변수에 우 
연수발생수를 통하여 값이 배정될 때 값의 초기자료상태를 가지는 순차프로그람은 각이 
한 실행에서 각이한 결과들을 얻을수 있다. 

그러나 비결정성의 이러한 형태는 자주 Monte Carlo 모의 에 서 또는 유전 알고리 듬에 서 
사용자가 기 대하는것 이 다. 다른 말로 이 응용들은 본질 적 으로 확정 적 이 아니 다. 많은 응 
용의 계산함수들은 수학적으로 확정적 이 다. 그러 나 이 함수들을 실현하는 병렬프로그람 
들은 병렬실행의 결과로써 미지로 된다. 미지의 이런 례외적인 형태를 찾아 내고 취급해 
야 한다. 또한 암시 적병 렬 성 을 리용하는 프로그람작성체 계 들은 높은 수준이 다. 왜 냐하면 
이 언어는 모든 프로그람이 확정적이라는것을 담보하기때문이다. 

2. 6. 참고문헌주해와 련습문제 

병렬프로그람작성의 중요성과 유감스러운 문제에 대하여 지금까지 많이 지적되였다. 
참고문헌 [443,556,58 刀은 그들의 몇가지 견해들과 이 분야에서의 합의들을 개괄한다. 
Pancake 와 조수들은 왜 병 렬 프로그람작성 이 어 려 운가 하는것 을 분석 하였 다 [481,482]. 난점 
들을 고찰할 때 Dfiater 는 순차프로그람병 렬 프로쎄스 ( SPPP ) 양상(실례 로 시한무프로쎄스량 
프로쎄스) [49 刀을 주장하였다. 

모두가 현재 병렬프로그람작성환경들의 대부분이 개선될 필요가 있다고 한것과 같이 무 
엇이 가장 좋은 방도이며 또는 좋은 방도가 있는가 하는 합의는 없다. 그렇지만 대부분의 사 
용자，판매자，연구자들로 구성된 병렬위원회는 네가지 긴요한 프로그람작성모형에로 의견일 
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치를 보았는데 그에 대하여 4편에서 론의한다. 

다른 연구자들은 여 전히 강하게 자료흐름과 함수적인 프로그람작성 모형 [123] 과 같은 긴 
요하지 않은 양상들을 강하게 주장하고 있다 [123]. 병렬대상지향프로그람작성에서 최근의 진 
보는 문헌 [58,139,144] 에서 론의된다. 비필수적프로그람작성은 이 책의 범위를 벗어 난다. 

프로쎄스와 스레드의 개념은 조작체계의 견지에서 지금까지 문헌 [582,621] 에서 론의 
되였다. 

IEEE Dthreads 표준이 [345] 출판되 였 다. 대 부분의 현존조작체 계 들은 스레 드를 지 원하 
는데 Alx 에 대 하여 문헌 [34이에서， Solards 에 대 하여 문헌 [132,601] 에서 ， Digital Unix 에 
대하여 문헌 [193] 에서 서술하였다. 

병 렬성 들을 서 술하기 위 하여 다양한 언 어 표기 법 들이 Andrews 에 의 하여 개 괄되 였 다 
[37]. 단일코드와 다중코드도식들은 특허권이 없어 진 체계(실례 로 PVM [261]) 와 상업적체 
계 들(실 례 로 IBM SP 2[33 刀)에 서 사용되 여 왔다. 자료병 렬방법 은 더우기 14장에 서 론의 
될 것 이 다. 구역분할과 일 정작성 기문제 는 문헌 [23이에 서 개 괄하였 다. 

병렬프로그람들은 순차프로그람보다 훨씬 더 복잡한 의미를 가진다. Pobert Keller 의 
독창적인 연구론문 [366] 은 우선 표시화된 이행체계개념을 제안하였는데 그것은 대부분 
조작의미 모형 의 토대 이 다. Apt 와 Oldenig 의 책 [41]- g ： 구성 방식화된 조작의미 들에 대 한 
좋은 소개 로 된다. 대 수적의 미 론은 Baeten 과 Weijland [53], Milner [449] 에 의해서 론의 되 였 다. 


문 제 

문제 2.1. 프로쎄 스 p 가 두개 스레 드 ?와 M 를 가진다고 가정 하자. r 와 m 는 p 의 주소 

공간을 공유하지만 그 매개는 비공개탄창을 가지고 있다. r 와 M 가 비공개복사를 가지는 
세가지 다른 자료와 조종구성방식들을 렬거하시오. 

문제 2.2. 그림 2-3 자)에서 와 같이 조종변수와 자료변수를 렬거하시오. 그림 2-3 ᄂ) 
와 그림 2-3 미에 대하여 같은것을 취하시오. 프로그람변수들에서 그것들의 차이에 대 
하여 설명하시오. 

문제 2.3. 그림 2-3 을 써서 표 2-1 을 설명하시오. 

• 그림 2-3 이에 대 한 그림 2-3 니의 우점은 무엇 인가? 

• 그림 2-3 니에 대한 그림 2-3 미의 우점은 무엇인가? 

• 그림 2-3 리는 그림 2-3 L ), 이의 절충이라고 하는가? 

문제 2.4. 프로쎄스개 념과 관련한 다음의 용어들을 구별하시오. 

• 방식절환，문맥절환，프로쎄스절환 

• 프로쎄스상태，프로그람상태 
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• 자료상태와 조종상태 

• 프로쎄스，과제，스레드 


문제 2.5. 최근에 일부 연구자들은 단일주소공간조작체계를 주장하였다. 그 사상은 
모든 프로쎄 스와 핵 심 부가 같은 주소공간에 놓인다는것 이 다. HTTP 데 몬， DNS 데 몬과 Web 
봉사콤퓨터우에서 실행된다고 하자. 

• Unix 우에서 단일주소공간방법의 주요우점을 설명 하시오. 

• 단일주소공간에 대한 주요 능력검사문제들을 설명하고 그 풀이를 제 안하시오. 

문제 2.6. 프로쎄 스일 정작성 기 와 관련 한 다음의 용어 들을 구별 하시 오. 

• 단순단일 프로그람화프로 쎄 스 

• 단일프로그람화된 묶음프로쎄스 

• 다중프로그람화된 묶음프로쎄스 

• 시분할프로쎄스 

• 독점다중프로그람화된 프로쎄스 

문제 2.7. 실례 2.2 를 고찰하고 다음질문에 답변하시오. 경과시간은 실행의 매 프로쎄 
스를 허락한 때로부터 실행이 완결될 때까지의 시간이다. 

• 호상작용프로쎄스에 대하여 어떻게 900 s 의 경과시간이 나오는가? 

• 어떻게 시분할경우 50 s 의 경과시간이 나오는가? 

• 호상작용체 계 가 훨씬 높은 우선권을 가지 고 독점일정 짜기기 능이 있는 체 계 에서 
수행된다면 경과시 간은 무엇 인가? 

문제 2.8. 병렬성문제에 대한 다음의 용어들을 구별하고 실례를 쓰시오. 


• SPMD 와 MPMD 

• 암시적병렬성과 명시적병렬성 

• 정적병 렬성과 동적병 렬성 

• 자료병렬성과 조종병렬성 

문제 2.9. 그림 2-3 의 세 병렬코드들을 고찰하시오. 그 매개에 대하여 다음 질문에 답 
변 하시오. 

• 코드가 SMD 인가 또는 MDMP 인가 ? 

• 코드가 암시 적 병 렬 성 을 쓰는가 명 시 적 병 렬 성 을 쓰는가 ? 

• 코드가 정적병 렬성 을 쓰는가 동적병 렬성 을 쓰는가 ? 
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• 코드가 자료병렬성을 쓰는가，조종병렬성을 쓰는가 ? 

문제 2.10. 호상작용문제에 관한 다음용어들을 구별하고 실례를 드시오. 

• 자료동기화와 조종동기화 

• 경쟁호상작용과 협조형호상작용 

• 정적호상작용과 동적호상작용 

• 점대점통신과 집합통신 

• 정규통신과 비정규통신 

문제 2.11. 그림 2-10 자)로부터 그림 2-10 비까지 고찰하시오. 그 매개에 대하여 n 
관계 가 통신인가를 설명 하시오(실례 로 왜 1관계 인가，5관계 인가?) 

문제 2.12. 주사는 감소의 일 반화이다(실 례 2.6 을 참고). N 프로쎄 스가 있 고 프로쎄 스 
P X) 가 a [ i ] 로 표시되는 값을 포함한다고 가정하자. 그러면 한번 주사후에 프로쎄스 P 
고)는 결과 a [ i ]+，"+ a [ n - l ] 을 엄을것이다. 

• 짧은 단일코드프로그람이 주사를 계산하는지 보시오. 주사조작은 log n 첫 단계 
에서 실현된다. 

• 어떻게 프로그람이 에 대한 주사를 계산하는가를 례증하는 그림을 보시오. 
그림 2-8 의 양상을 따르시오. 


문제 2.13. 다음의 코드가 옹근수배 렬 A 의 합을 계 산하는가를 고찰하시 오. 

Sum =0 

For ( i =0; i < N ; i ++) Sum = sum + A [ i ]; 

• parfor 와 Atomic 범위구성을 사용하여 기지적인 합함수를 계산하는 병렬프로그람을 
쓰시오. 배렬의 크기는 N 이고 처리기의 수는 «이다. N 은 n 을 나눈다. 

• Parfor 와 aggregation 구성을 써서 part 를 반복하시오. 

• 간단성 과 성 능에 의하여 이 두 프로그람을 비 교하시 오. 

• 이미 알려 진 코드가 실제적 인 병 렬콤퓨터우에서 실행될 때 미지의 상황이 있 
는가 

문제 2.14. 다음의 방법 들을 사용하여 옹근수배렬의 합을 계 산하는(문제 2.13) 간단한 
SMMD 병 렬프로그람을 쓰시 오. 명 확히 정의된 임의의 허 위코드표기 법 을 쓸수 있다. 


• 서고방법 

• 새로운 구성 방법 

• 콤파일러지시어방법 
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제 3 장. 성능척도와 성능평가기준 


확대 가능성체계들은 콤퓨터들에서 높은 성능에 대한 끊임 없이 증가되는 요구를 만족 
하도록 만들어 져야 한다. 이 목표에 도달하기 위해서 콤퓨터사용자들과 설계자들은 다 
음과 갈은 성능상문제들을 고찰해야 한다. 

• 응용프로그람과 체계의 성능을 어떻게 특징 짓는가 하는 일반적인 방법은 성능 
평가법으로서 3.1 에서 론의된다. 

• 가격 대 성능비 에서 사용자의 요구는 무엇 인가 하는 문제는 3.2 에서 취급한다. 

• 이 두 요구의 절충은 실행시 간，지속속도，비 용효과성 등에 의하여 론의된다. 

• 어 떻게 응용프로그람의 성능을 측정해 야 하며 어떤 종류의 성 능척도가 사용되 여 
야 하는가 하는 문제에 대하여 3.3 에서는 순차프로그람， 3.5 에서는 병 렬프로그람 
을 서술한다. 

• 병렬프로그람이 병렬콤퓨터에서 실행될 때 체계성능은 어떻게 특징 지어야 하며 
성능에 영향을 주는 인자들은 무엇이고 또 현재 체계들에서 전형적인 인자들은 
무엇인가 하는 문제들은 3.4 에서 고찰한다. 

• 체 계확대 가능성은 어떻게 량적 으로 규정 하고 분석하며 주어 진 응용프로그람을 
실행하는 병 렬콤퓨터의 확대 가능성은 어 떻게 결정할수 있는가 하는 문제 는 3.6 
에서 기본성능법칙으로 고찰한다. 

3. 1 . 체계와 응용의 성능평가기준 

성능평가기준은 어떤 클라스의 응용프로그람에 대한 처리와 자료이동특성을 가상적 
으로 얻어 내는 성능검사프로그람이 다. 성능평 가기준은 콤퓨터의 성능을 측정하고 예측 
하여 그것 의 구조적 약점 과 우점 들을 발견 하는데 사용된 다. 성 능평 가기 준묶음은 검 사조건 
과 절차를 관리 하는 특정 한 규칙모임을 가진 성능평 가기준프로그람의 모임으로서 검사되 
는 가동환경，입 력 자료，출구결 과들，성 능척 도들을 포함한다. 성 능평 가기 준계 렬 은 성 능평 
가기준묶음들로 이루어 진 하나의 모임이다. 

성 능평 가기 준분류 성 능평 가기 준은 응용프로그람클라스에 따라 과학계 산，상업 적 응용， 
망봉사，다매체응용프로그람, 신호처리 등과 같이 분류한다. 성능평가기준들은 또한 마크 
로성 능평 가기 준과 마이 크로성 능평 가기 준으로 나눌수 있 다. 

마크로성능평가기준들은 콤퓨터체계의 성능을 하나의 전체로서 측정한다. 그것은 응 
용프로그람클라스에 대 해 각이 한 체 계 들을 비 교하므로 체 계 구매 자에 게 리 용가치 가 있 다. 
그러나 마이크로성능평가기준은 매 체계가 잘 또는 나쁘게 수행하는가를 발견하지 못한 
다. 마이 크로성 능평 가기 준은 CPU 속도，기 억 속도， FO 속도，조작체 계 성능，망기 능 등의 성 
질을 평 가한다. 

성능평가기준은 충분히 독립적 인 응용프로그람이거나 핵심부일수 있다. 그것은 기본 
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，평가기준묶음들이 표 3-1 에 렬거된다. 


표 3-1 _ 대표적인 마이크로와 마크로성능평가기준 


형래 

이름 

측정 

마이크로 

성능평가기준 

LINPACK 

수값계 산(선형 대 수) 

LMBENCH 

Unix 에 서 체 계 호출과 

자료이동연산 

STREAM 

기억기대역너비 

마크로 

성능평가기준 

NAS 

병렬계산 (CFD) 

PARKBENCH 

병렬계산 

SPEC 

혼합용성능평가계렬 

Splash 

병렬계산 

STAP 

신호처 리 

TPC 

상업 적 응용 


3. 1. 1. 마이크로성능평가기준 


아래 에서 세개의 마이크로성 능평 가기 준묶음을 간단히 소개 한다. 자고 
-에서 제출한 개별적인 조종시험문서에서 알수 있다. 

LINPACK 성능평가기준은 Tennessee 종합대학에 있는 Jock Dogarra 에 
-며 리용되 고 있 다. 그것 은 하나의 성 능평 가기 준이 라고 부르지 만 LIN ] 
계 산작업 을 위해서 널 리 사용된다. 그것 은 선형방정 식 과 선형최 소평 ^ 
L 분석 하는 Fortran 부분프로그람집 합체 이 다. 그 행 렬은 속박즈 

표 3-2 1996년 12월 UNPACK 기록표본 








대 칭정의 값일수 있으며 삼각행 렬，세 줄대각선정 방행 렬일수 있다. 그것은 체계의 수값계산가 
능성 의 하나의 좋은 확대 로서 사용하기 쉽 고 간단하다. UNPACK 에 가까운 방법 들은 여 러 
가지 체계의 UNPACK 성능수들이 정기적으로 출판하는데 500 개의 목록을 포함한다. 그것 
은 세 계 적으로 500 개 의 매우 강력한 콤퓨터들이다. UNPACK 는 분산기억병 렬 를퓨터 들에 
서 ScaLINPACK 로 변경 되 였 다. 꼭대 기 8 개 의 대 단히 강력 한 를퓨터 의 UNPACK 성 능표본 
을 표 3-2 에서 보여 주었다. 여기서 는 달성된 지속적인 최대속도이고 는 요_에 
도달했을 때 문제크기 이 다. 바꾸어 말하여 자료행 렬의 차수 N m 은 절 반에 도달했 

을 때 문제의 크기이다. /? peak 는 측정된 체계의 최대속도이다. 

1996 년 12 월에 제 작된 지금까지 제 일 빠른 를퓨터 는 7264 처 리 기 Intel OptionRed 이며 
그것은 1453Gflop/s 의 최대속도를 가진 다. 1.068Tflop/s 의 지속속도는 2 15,000x2 15,000 행렬 
로 특징 지 어 지는 문제를 풀어서 얻 어 진다. 

LMBENCH LMBENCH 성능평 가기준묶음은 SGI 의 Lany MoVoy 에 의 하여 보존되고 있 다. 
그것은 조작 체계부가처리와 여러가지 UNIX 가동환경우에 있는 처리기，캐쉬，기억，망과 디 
스크 사이 에 서 자료전송능력 을 측정하는데 쓰이 는 이 식 가능한 성 능평 가기 준이 다. 그것 은 성 
능문제와 체계설계를 식별하기 위한 간단하고 아주 쓸모 있는 도구이다. 3개 체계에 대한 
몇 가지 LMBENCH 결 과들을 표 3-3 에 서 보여 준다. 3 개 체 계 는 IBM990 봉사기， Sun Ultra 워 
크스레 이 션， Intel Adler PC 체 계 이 다. 


표 3-3 LMBENCH 에 의해 측정된 대역너비, 지연시간, 체계부가처리 


1 _ 흐 _ 섬 _ 1 

Intel Alder 

Sun Ultra 

IBM 990 

대역 너비 
(MB/s) 

기억기복사 

52 

85 

242 

파일 읽기 

52 

85 

187 

관 

38 

61 

84 

TCP 

20 

51 


지연시간 

(Ms) 

기억기복사 

0.28 

0.27 

0.26 

파일 읽기 

23,809 

18,181 

13,333 

관 

101 

62 

91 

TCP 

305 

162 

332 

체계 부가 
처리 

(MS) 

빈값체계호출 

7 

5 

16 

프로쎄 스창조 

4500 

3700 

1200 

문맥 절 환 

36 

14 

13 


STREAM STREAM 성능평 가기준은 SGI 의 John Mocalpin 이 보존하는 간단한 종합성 
능평 가기 준으로서 지 속적 인 기 억 기 대 역 너 비 (MB/s) 와 대 응하는 계 산률들을 측정 한다. 
STREAM 성 능평 가기 준을 개 발하기 위 한 동기 는 처 리 기 들이 기 억 기 보다 훨 씬 더 빠르고 
많은 프로그람들이 처 리 기속도보다는 기 억기대역너 비의 성능에 의하여 제 한된것과 관련 
되여 있다. 

이 성능평가기준은 단위걸음자료접근을 가진 몇가지 호상작용에 대하여 표 3-4 에서 보 
여 준 네 가지 조작들을 수행한다(바꾸어 말하면 매 호상작용마다 첨 수는 1씩 증가한다.). 
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지 속 TRIAD 기 억 대 역 너 비(단어/ s ) 


표 3-4 STREAM 성능평가기준에서 4개의 연산 


이름 

코드 

Bytes/ 반복 

Flop/ 반복 

COPY 

a(i)=b(i) 

16 

0 

SCALE 

a(i)=qXb(i) 

16 

1 

SUM 

a(i)=b(i)+c(i) 

24 

1 

TRIAD 

a(i)=b(i)+qXc(i) 

24 

2 


표 3-5 _ 기계균형값에서 력사적추세 



체계 

기억 기대 역 너 비 
(MB/s) 

최대속도 

(Mflop/s) 

기계균형 


DEC VAX 11/780 

4 

0.4 

0.8 


DEC 5000/200 

28 

10 

2.9 


DEC 3000/500 

100 

150 

12 


DEC 600-5/300 

169 

600 

28.4 


DC 8400/350 

234 

700 

24 


IBM PC 8088/87 

2 

0.1 

0.2 


IBM PC 486/EC2-66 

33 

10 

2.4 


IBM PC Pentium-100 

85 

66.7 

6.3 

) 

IBM RS/6000-320 

60 

40 

5.3 

i 

IBM RS/6000-580 

240 

126 

4.2 


IBM RS/6000-590 

654 

262 

3.2 


IBM RS/6000-591 

800 

310 

3.1 

) 

SGI 4D/25 

13 

8 

5 


SGI Crimson 

62 

50 

6.5 

1 

SGI Challenge 

57 

75 

10.5 


SGI Power Challenge 

135 

300 

17.8 


SGI Origin 200 

317 

388 

9.8 


는 한 단어를 읽고 쓰기하는 시간주기내에 실행될수 있는 flO ] 


ᅵ 증되 는것 처 럼 많은 체 계 들의 기 계균형값은 해 마다 증가하고 있 
I 리기 속도보다 점 점 더 많이 뒤 떨 어 진다는것을 의 미 한다. 

로서 IBM RS /6000 봉사기 들 인 데 그것 은 기 억 기 체 계 설 계 에 커 다 






를 돌리였다. 최근년간에 다른 회사들도 역시 기억기체계성능을 개선하려고 노력하였다 
(실 례 로 DEC 8400 과 SGI Origin 200). 

3. 1. 2. 병렬계산성능평가기준 

많은 병렬 계산성능평가기준묶음들이 쓰이고 있 다. 실례로 Splash 와 Splash -2 는 
Stanford University 에서 개 발된 수값계산성 능평 가기준들인데 분산공유기 억기 기계들을 [649] 
연구하는데 널리 쓰이였다. Minols 종합대학에서 개 발된 완전한 성능평 가기준묶음은 여 러 
가지 병 렬성콤파일 러체 계들과 기술들을 평 가하는데 사용되 여 왔다「6, 91， 176]. 

아래 에 서 세 가지 병 렬 실험조들인 NPB , PARBENCH 와 과학계 산에 서 주요응용그룹들 
을 표현하는 STAP 에 대 하여 서술한다. 

NPB 조 NAS 병 렬 성 능평 가기 준 ( NPB ) 은 NASA Ames Research Center 에 서 수값공기 력 
학모의 ( NAS ) 프로그람에 의하여 병 렬 고속를퓨터 들의 성 능평 가를 위하여 개 발되 였 다. NPB 
는 대 규모계 산류체 동력학 ( CFD ) 응용프로그람들의 계 산과 자료이 동특성 을 모방하였 다. 

NPB 는 MPI - 토대 Fortran 원천코드실현뿐아니 라 연필과 종이 특성 을 제 공한다. 성 능평 
가기 준결 과들은 NAS 에 의하여 검 증되 고 정 기 NAS 보고서 에 출판되 였 다. 이 특징 으로 하 
여 NPB 는 병 렬콤퓨터판매 자들，사용자들，연구자들속에 서 좋은 호평 을 받았다. 

NPB 조는 다섯 개의 핵심부 [ EP ， MG ， CG , FT , IS ] 로 구성 되여 있으며 세 개의 모의 응용 
( LU ， SP , BT ) 프로그람들로 구성된다. 계산의 대부분은 IS 에서 옹근수산수이며 한편 다른 성 
능평 가기 준들은 류동소수점계 산집 약적 이다. EP(Embarrassingly 병 렬 )성 능평 가기 준은 적 은 
통신을 가지 는 몇개의 처 리 기들에서 실행될수 있으므로 적 절하게 이름을 불였 다. 그것은 
병 렬 콤퓨터 의 류동소수점 성 능을 위한 도달가능한 웃한계 를 평 가한다. IS (옹근수 정 돈)성 
능평 가기 준은 파케 트정돈에 기초한 병 렬정돈프로그람이다. 그것은 많은 량의 전체 적 인 
교환통신을 요구한다. 

MG (다중격자법)성능평가기준은 3차원스칼라봐쏭방정식을 푼다. 그것은 짧고 긴 령역 
통신을 둘 다 수행하는데 그 통신들은 고도로 구조화된다. CG (공액 트라디엔트법)성 능평 가 
기 준은 대 칭 정값행 렬 의 최 소고유값을 계 산한다. 그것 은 구조화되 지 않은 격 자계 산특징 이 
있고 비정규적인 긴 령역통신을 요구한다. 

FT 성능평 가기준은 3원편미 분방정 식 을 FFT 에 기 초한 스펙 트르법 을 사용하여 풀며 역 
시 긴 통신을 요구한다. BT (블로크，3 대각)， LU (블로크아래 3각，블로크웃 3각) 그리고 
SP (스칼라 5 대각)성능평가기준들은 Navier Stokes 방정식 을 푸는데 여 러 가지 방법 을 적용 
한다. LU 는 많은 수의 작은 통신(매 개 는 다섯 개 단어 들)을 수행한다. 한편 다른 두개 는 
coarse - grain 통신들을 사용한다. 

PARKBENCH PARKBENCH(PARallel Kernels and BENCHmarks ) 위 원회를 고속계산 92 
에서 병 렬콤퓨터성능평 가기준기술에 관심 있는 사람들에 의하여 설립되 였다. 그 그룹이 제 
기 한것 은 성 능척 도와 표기 법 의 무모순적모임 을 확립한것 으로써 이 책 에서 서 술하였 다. 

현재 성 능평 가기 준은 분산기 억 다중콤퓨터 들을 위 한것 이 다. 그것 은 Fortran 77더 하기 
와 통보교환을 위한 PVM 또는 MPI 를 가지 고 코드화된 다. 문제 는 공유기억 기 구조에 대 한 
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Fortran 90 과 HDF 변종，성 능평 가기준을 개 발하는데 있 다. 이 그를은 지금까지 다음과 같은 
네가지 종류의 성능평가기준을 내놓았다. 

• 낮은 준위 성 능평 가기 준 이 주소성 능평 가기 준은 시 계측정 기 분해능，산수연산속도， 
캐쉬와 기억기속도，통신시동시간과 대역너비，동기화부가처리와 갈은 기본파라 
메 터 들을 측정 한다. 

• 핵심부성능평가기준 이러한 측정부분프로그람들은 빈번히 행렬연산, FFT 와 같은 
과학계 산과 편미방과 NPB 핵 심 부들을 푸는데 리 용된 다. 

• 콤팍트응용프로그람성 능평 가기 준 현재 병 렬 스펙 트르변환，얕은물모형응용프로그 
람과 세개의 NPB 모의응용프로그람들만을 포함한다. 

• HPF 콤파일 러성 능평 가기 준 이 것 들은 HPF 를파일 러 의 성 능을 측정하는데 리 용된 
몇가지 간단한 종합응용프로그람들이 며 명시적 인 HPF 구성 들에 대 한 병 렬실현에 
초점을 두고 있다. 

병렬 STAD 조 시공간적용처리 ( STAP ) 성능평가기준묶음은 실시간탐지기신호처리성능 
평 가기준프로그람의 모임 으로서 원래 Mit Lincoln Laboratory [101] 에서 개 발되 였다. MIT 의 
순차형 STAD 는 최 근에 University Southern California 에서 여 러 가지 MPP 들을 평 가하기 위 
하여 병 렬 STAP 로 변환되 였 다. Hwang 들이 그에 대 하여 제 기 하였 다 [334,634]. 

STAP 성 능평 가기 준프로그람들은 계 산이 집 약적이 며 그것 은 초단위 로 자료의 0(10 2 - 
10 4 )MB 에 대 해 0(10 2 _10 4 )류동소수점연산수행 을 요구한다. 

STAP 성능평 가기준묶음은 다섯 개의 프로그람 즉 적응처 리시험대 ( APT ), 고차 POST _ 
Doppler ( HO _ PD ), Beam Space PRI_Staggered Post Doppler ( BM _ Stag ), 요소공간 PRI_Stagered 
Post Doppler ( EL _ Stag ) 와 General ( GEN ) 로 구성된다. GEN 프로그람은 정돈 ( SORT ), 고속푸리 
예변환 ( FFT ), 벡 토르적 ( VEC ), 선형대 수 ( LA ) 를 실행하는 네개의 축립요소프로그람들로 이 
루어 져 있고 그것은 탐지기신호처리응용들에서 리용되는 핵심부 부분프로그람들을 표현 
한다. 

다른 네개의 성능평 가기준들은 모두 도플러처 리 ( DP ) 단계 로부터 출발하는데 이 단계 
에서 프로그람은 기 대하는 많은 량의 1차원 FFT 계산을 수행한다. 모든 네개의 프로그람들 
은 목표검출 ( TD ) 단계 에서 끝난다. 

APT 는 삼각학습형 행 렬을 발생 하기 위 해 HouseHolder 변환을 수행 하며 그것은 그후 
의 전파장애와 혼란을 제거하는 복사형성 ( BF ) 단계에서 리용된다. 이와는 반대로 HO_PD 
프로그람에서 두개의 적응복사형성단계는 한 단계로 결합된다. 

BM_Stage 프로그람과 EL_Stag 프로그람은 HO_PD 와 류사하지만 각각 전파복사공간과 
요소공간에 서 알고리 듬을 세 련시키 는 서 로 엇 갈린 호상간섭 을 리용한다. 


실 례 3.1 ADP 성 능평 가기 준프로그람 

STAP 성 능평 가기 준묶음에 서 ADP 프로그람은 다음과 같이 간단하게 서 술할수 있다. 
여 기서 변수 N 는 문제의 파라메 터 이 다. 표기 [ • ] 는 그 차원에 따라 모든 배 렬요소들이 
접 근될수 있 다는것 을 의 미 한다. 변수 house 는 N 과 무관계 한 약 80 KB 의 정 보를 포함하는 
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행 렬 이 다. 


for ( j =0; j < N ; j ++) /*DP 단계*/ 

for ( k =0; k <32; k ++) 
fft ( data [.][ j ][ k ]); 


ht ( data [ l ] [.] [.], house ); 


for ( i =0; i < N ; j ++) 


/*HT 단계 */ 
/*BF 단계 */ 


bf ( data [ i ] [.][.], house , detect [ i ] [.]); 


for ( j =0; j < N ; j ++) /*TD 단계 */ 

for ( i =0; i < N ; i ++) 

td ( detect [ i ] [ j ] , target _ report ); 


3. 1 . 3 . 업무 및 TPC 성능평가기준 

상업 적 응용프로그람들에 적 용되 는 가장 일 반적 인 성 능평 가기 준들은 Transaction 
Processing Performance Council ( TPC ) 에 의 하여 개 발된 TPC 성 능평 가기 준이 다. 그것 은 트랜 
잭 션처 리 와 자료기 지 성 능평 가기 준을 개 발하기 위 하여 나온 단체 이 다. TPC 는 그 성 능평 가 
기 준에 대 한 열 린 표준규정 을 제 공하는데 이 것 을 임 의 의 검 사자가 실 현 할수 있 고 TPC 의 
검사자들은 출판전에 결과를 자세히 관찰한다. 

지금까지 TPC 는 네 가지 성능평 가기준을 내놓았다. TPC - A 와 TPC - B 는 1995년 6월 
현재 로 쓰고 있다. TPC - C 는 트랜잭션처 리체계의 성능과 가격 대 성능비를 측정하는 자 
료입 력 성 능평 가기 준이 며 TPC - D 는 결 심 채 택 지 원체 계 의 성 능들을 측정 한다. 

TPC 는 TPC - E ( Enterprise ) 라고 부르는 새로운 성능평가기준에서 대규모업무회사들에 적합 
한 계산환경을 지원하는 주어 진 체계의 능력을 량적으로 평가하기 위하여 리용되고 있다. 

현재 TPC - C 는 가장 널 리 사용된 상업 적응용프로그람성 능평 가기 준이 다. TPC 는 직 결 
트랜잭 션처 리 ( OLTP ) 성 능평 가기준이 다. 그것은 말단조종자들이 자료기지 에 대 한 트랜잭 션 
을 실 행하는 완전한 소매 회 사환경 을 모의한다. 회 사들은 N 개 의 창고들을 운영하며 매 창 
고는 m 개의 판매지역에 공급하고 매개 지역은 3000명의 구매자들에게 봉사한다. 매 창 
고는 10개의 말단을 가지며 매 지역마다 하나씩 대응된다. 

임의의 시각에 순서를 만들어 구매자의 자료기지에 지불하고 순서상태와 배달순서， 
현재 재 고준위 를 시 험 하기 위하여 조작자는 표 3-6 에 서 보여 준 다섯 개 의 트랜 잭 션 가운 
데 서 하나를 선택한다. 

그러나 TPC 는 모든 트랜잭션들이 실행될것을 요구하며 최소한 43%가 지불되여야 
하고 4%는 매 개 가 순서 상태，배 달과 재 고준위 여 야 한다. 

TPC - C 결과들을 발표하기 위하여 검 사자는 TPC - C 규정 에서 언급된 모든 요구들이 
달성 되 는가를 보여 주는 충분한 보고를 제 공해 야 한다. 보고는 구체 적 인 체 계구성정 보， 
성능，비용척 도들을 제 시한다. 전체 체계비 용은 5년간 유지 비 용과 180일동안 운영하는 동 


97 




안에 필요한 직결자료보관을 포함하여 모든 하드웨어와 쏘프트웨어를 포괄한다. 


표 3-6 TPC - C 평가기준에서 다섯가지 형태의 트랜잭션 


트랜잭션형래 

자료기 지 접 근 

트랜잭선무게 

실행벽| 

90%응답시 간 

New-Order 

읽기/쓰기 

중간 

높다 

<5s 

지불 

읽기/쓰기 

가볍다 

적어도 43% 

<5s 

순서상래 

읽기 

중간 

적 어도 4% 

<5s 

배달 

읽기/쓰기 

무겁다 

적어도 4% 

<5s 

재 고준위 

읽기 

무겁다 

적어도 4% 

<20s 


두개의 TPC-C 결과들이 자주 리용된다. 즉 성능결과 fpmC 와 비용/성능결과 $/ tpmC . 
TPC-C 처리 량 혹은 분당 TPC-C 트랜잭션들은 (tpmC 로 표현) 분당 처리될수 있는 New_ 
Order 의 수로 측정 한다. 한편 체 계 는 TPC-C 성능평 가기준규정 에 의 하여 결정된 작업부하 
혼합에 따라 다른 4 가지 형 태의 트랜잭 션을 실행 하고 있다. 비용/성능은 전체체계비용을 
나눈것 으로 정의한다. 구체 적 인 실례 로 IBM PC 봉사기 704 는 약 58 만 8 천딸라의 전체 체 
계 비 용, TPC 처 리 량 6679.50tpmC 와 비 용성 능 88$/tpmC 를 가진 다. 

TPC-C 는 측정되는 체 계가 확대축소되게 하지만 말단의 수와 자료기지의 크기 가 비 
례하여 확대축소되 여 야 한다. 창고가 회 사의 전체 재 고를 유지할수 없으므로 다른 창고 
에 가야 한다. 이 것은 TPC-C 가 혼란되 는 병 렬성능평 가기 준으로 되지 않게 한다. 측정체 
계는 ACID 속성 즉 원자성，일치성，고립성，견딜성을 제공한다. 

3. 1 . 4. SPEC 성능평가기준계렬 

SPEC 성 능평 가기 준계 렬 은 Standard Performance Evaluation Corporation 에 의 해 개 발되 였 다. 
SPEC 는 작은 합성형 핵 심부대신에 실제적 인 작업부하를 잘 반영하는 실제적 응용프로그람을 
개 발하는데 중점 을 두고 있다. 매 개 성 능평 가기 준과 성 능평 가기 준묶음에 대 하여 SPEC 는 
전체 체 계의 종합적 인 성능을 측정하는 몇 개의(많은 경 우 두개 ) 척도들을 포함한다. 

SPEC 는 CPU 성 능을 측정 하는것 으로부터 시 작하였지 만 의 뢰 기/봉사기 계 산，상업 적 응 
용프로그람 I/O 부분체계, 기 타 등등에까지 확장되였다. 현재 SPEC 는 다음과 같은 성능평 
가기준묶음들을 내놓았다. 

• SPEC 95 그것 은 CPU 성 능，기 억 기 체 계 와 를파일 러 코드발생 의 성 능을 측정 한다. 

• SPEChpc 96 이것은 공업적 인 응용프로그람들을 실행하는 고성능계산체 계의 성 
능을 측정한다. 그것 은 현재 두개 의 성 능평 가기 준들을 포함한다. 즉 지 진처 리조 
종시험 SPECseis96 과 계 산화성 능평 가기 준 SPECchem96 를 포함한다. 

• SPECweb 96 이것은 실지 세계적인 WWW 봉사기의 동작일지로부터 나온 작업부 
하에 토대 한 web 봉사기 성 능을 측정 한다. 

• SFS 체 계 준위 파일 봉사를 위 하여 그것 은 LADDID 성 능평 가기 준을 포함하며 여 
러가지 작업준위 에 서 NFS 파일봉사기 의 처 리 량에 대 한 응답시 간을 측정한다. 
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• SDM 체계 개 발다중과제 기능을 수행 하기 위하여 전형적 인 Unix 쏘프트웨 어개 발명 
령(실례로 make ， cp ， grep ， spell ) 들을 쓰는 많은 사용자를 가진 환경을 어떻게 운영 
해 나가는가를 측정한다. 그것 은 Unix 쉴 스크립 으로 만들어 진 두개 의 다중사 
용자 Unix 명 령을 포함한다. 

• GPC 도형 성 능을 특징 짓 기 위하여 도형 성 능을 측정한다. 그것 은 진행 중에 있는 
세개의 개 발계 획 을 포함한다. 그림준위성능평 가기 준 (PLB) 은 초당 벡토르와 초당 
다각형，도형 성 능을 측정 한다. X성 능특성 묘사 (XPC) 개 발계 획 은 Xmark93 성 능평 가 
기 준도구를 X원도우즈성 능을 측정 하기 위 하여 개 발하였 다. OpenGL 성 능을 측정 
하기 위 하여 Viewperf 성 능평 가기 준을 개 발하였 다. 

SPEC 95 SPEC95 CPU 성 능평 가기 준은 판매 자와 사용자들에 의 하여 널 리 사용되 는 
가장 유명한 SPEC 성능평 가기준으로서 이것들은 CPU 속도，캐쉬/기 억기체계 그리 고 전체 
로서 콤파일 러 를 측정하는 CPU 성 능평 가기 준이 다. 

조작체 계 와 I / O 기 능에 서 소비 되 는 시 간을 무시할수 있 다. SPEC95 는 CNT95, 8개 의 
옹근수프로그람모임，10개 의 류동소수점프로그람모임 으로 이 루어 져 있고 그것 들은 둘 
다 CPU 집 약적 인 응용프로그람들이다. 

SPEC 는 정기적으로 고정복사와 web 를 통해 여러가지 기계의 성능들을 발표한다. 
표 3-7 은 8MB 의 캐쉬와 128MB 의 기억기를 가지는 500MHz Alpha 2116처리기를 사용 
하는 3차원 Alpha Station 의 SPEC95 결과들을 보여 준다. 주어 진 체계의 모든 SPEC95 결 
과들은 참조기 계인 Sun SPARC Station 10/40와 비교되는 비 률로서 표현된다. 실례로 값 
5는 측정된 기계가 SPARC Station 10/40보다 5배의 성능을 가지거나 또는 4배나 더 빠르 
다는것 을 의 미 한다. 

매 척 도는 개 별적성 능평 가기 준의 비률을 기 하평 균하여 전체 성 능평 가기 준묶음으로 
집 합된 다. 속도는 성 능평 가기 준단일 복사를 실 행하는 비률로 측정하며 한편 구간내 자료 
량(비률)척 도는 성 능평 가기 준의 다중복사를 실 행하는 비률로 측정한다. 결 과는 피 동적 인 
최량화 혹은 능동적인 최량화로부터 엄어 지며 기준선과 최대성능수들로서 평가한다. 

최 대 속도는(표 3-7 에 서 굵게 표시한것) 흔히 SPEC95 수들을 인용한다. 


표 3-7 Alphastation 의 SPEC95 성능 (8MB 외부고속 

완충기억기와 128MB 기억기를 가진 500MHz 21164처리기) 


척 도 

속 도 

! 처리량 1 

95 

_base95 

_rate95 

_rate_base95 

SPECint 

15 

12.6 

135 

113 

SPECfp 

20.4 

18.3 

183 

165 


실례 3.2. SPECint 와 SPECfp 결과의 해석 

Digital Alpha Station 500/50()1 은 SPECint_rate base95=113 과 SPECfp95=20.4 를 가진다. 
이 수들은 무엇을 의미 하는가? SPECint_rate_base95 수는 CINT95 조의 8개의 성능평 가기준 
의 비률을 기 하평 균하여 엄 어 지 는데 매 성 능평 가기 준은 낮은 최 량화(실 례 로_0)토 콤파 
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일러된다. 

매 성능평가기준의 비률은 한주일동안에 성능평가기준의 다중복사를 실행하여 측정 
되며 실행시 간은 Sun SDARC station 10/40에 관하여 정 규화된다. 수자 113은 한주일동안 
에 SunSPARCstation 보다 CINT 95 의 복사를 112배 더 많이 실 행 한다는것 을 의 미한다. 

SPECfp 95 수는 CFD 95 조의 10개 성능평 가기준비 률을 기 하평 균하여 엄으며 매 성능평 
가기준은 능동적 인 최 량화(실례로 ?0 . )로 를파일러된다. 이 성능평가기준은 Sun SDAR 
Station 10/14에 관하여 정 규화된 실행시 간을 가지 는 파일복사를 실행 하여 측정 한다. 수 
20.4 는 수자기계 가 Sun SDAR Station 10/40보다 CFP 95 의 단일 복사실 행 에 대 하여 19.4 배 
더 빠르다는것 을 의 미한다. 


3. 2. 가격 대 성능비 

어떻게 콤퓨터체계의 성능을 재는가? 많은 사람들은 실행시간이 콤퓨터의 성능을 재 
는 믿음직한 척도라고 믿고 있다. 이 방법은 목표기계에서 사용자의 응용프로그람을 동 
작시키는것이며 경과된 시간을 측정하는것이다. 직관적으로 이 방법은 때때로 적용하기 
어렵고 또한 틀린 해석을 허용할수 있다. 

실례로 제한된 응용프로그람들이 각이한 콤퓨터체계에로 이식될수 있다. 새롭게 도 
입 된 병 렬 콤퓨터 에 서 주어 진 응용프로그람을 실 행 하는것 은 프로그람작성 자들에 게 지 불 
하는 높은 비용과 CPU 시간은 말할것도 없고 응용프로그람코드들을 변경하고 검열수정하 
며 검사하는것인데 많은 토력과 시일이 요구된다. 현재 병렬콤퓨터들에서는 CPU 시간에 
수십 부터 수백딸라를 부담하게 된다. CPU 시 간마다 20딸라라고 하면 응용프로그람이 한 
시 간동안에 256처 리 기 우에서 실 행하는데 5000딸라이 상이 부담된다. 병 렬코드개 발에 서 로 
력비 용에 비 하면 CPU 시 간 비 용은 비 싼것 같이 보이 지 만 더 작다. 왜 냐하면 많은 사용자 
들이 병 렬성름파일 러 와 같은 자동화된 도구들을 특히 최 대성 능이 중대 하지 않거 나 응용 
프로그람이 최종판본이 아니고 집합된것일 때 선택하기때문이다. 

실례 3.3. 성능측정 으로서 실행시 간을 리용하는메서 주의할 점 

어 려운 작업 에 대하여 많은 토력을 소비 하고 시 일이 지난후에 사용자는 최종적으로 
코드를 병 렬콤퓨터 보우에서 성과적 으로 실행 하고 1000 s 의 실행시 간을 측정했다고 가정 하 
자. 이 실행시간측정은 단독으로는 많다고 볼수 없다. 

500 s 의 실행시간으로 또 다른 기계 r 에서 코드실행된다고 가정하면 기계 보는 y 보다 
더 느리 다고 결론 지을수 있는가? 대답은 “반드시는 아니다.” 일것 이 다. 그것은 기계 x 
는 더 느릴지도 모른다. 그러나 그것은 알고리듬의 특별한 체계에 대하여 최량으로 실현 
되지 않을수 있거나 나쁜 자료구조가 기계 x 코드에서 사용될수 있기때문이다. 

표는 실제 적 으로 우월한 계 산능력 을 가지 고 있지 만 리용자코드는 너 무 fine - grain 로 되 
여 과도한 통신부가처리를 일으킨다. 문제는 실행시간 하나로서는 사용자에게 기계의 진짜 
성능에 대한 좋은 실마리를 줄수 없다는것이다. 실행시간은 유일한 성능평가로 될수 없다. 
사용자들속에서 자주 주장하는 여섯가지 형태의 성능요구 즉 실행시간，속도，구간내 자료 
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량，리용성，비용효과성，성능/비용비률을 아래 에서 서술한다. 평가기준들은 갈은 콤퓨터가 
동환경우에 있는 같은 응용프로그람에 대하여서는 완전히 다른 요구를 가질수 있다. 


3. 2. 1 • 실행시간과 처리량 

표 3-8 은 STAP 성 능평 가기 준들에 의하여 세개의 프로그람이 256 개마디 SP2 우에서 실 
행될 때 여 러개의 성능값들을 렬거 한다. 


표 3-8 _ 256-마디 SP 2 에서 측정된 STAP 성능 


프로그람 

실행시간 

속도 

속도증가 

리 용 

APT 

0.16s 

9 Gflop/s 

90 

13% 

HO-PD 

0.56s 

23 Gflop/s 

233 

34% 

GEN 

1.40s 

3.8 Gflop/s 

86 

6% 


실행시간 여러 응용프로그람들에서 극히 중요하다. 실례로 어떤 실시간응용프로그람 
에 서 리용자는 일 감이 시 간한계내 에 끝나기 가 담보되 는가에 대 하여 관심 을 가진다. 
STAP 성능평가기준이 0.5s 이내에서 실행되여야 한다고 가정하자. 표 3-6 에서 측정된 성능 
자료들은 오직 APT 프로그람만이 256 개마디 SP2 우에 서 이 0.5s 요구를 만족한다는것 을 보 
여 준다. HO-PD 와 GEN 은 이 요구에 이르지 못한다. 

처 리속도 많은 응용프로그람들에서 사용자들은 실행시 간보다 오히 려 일정한 처 리속 
도를 얻는데 관심 을 두게 된 다. 응용프로그람은 각이한 작업 부하를 가지 고 각이한 자료 
입력을 처리하며 따라서 각이한 실행시간을 가진다. 그러나 속도요구는 보존되여야 한다. 

실례로 STAP 프로그람은 성능평가기준이며 거기서 그것들은 실제적인 생산물적인 프로 
그람은 아니 다. 오히 려 그것 들은 실제코드의 특성 을 알아 낸 다. 사용자가 바라는것 은 
10Gflop/s 라고 하는 일정한 처 리속도를 낼수 있는 하나의 STAD 체 계 이 다. 표 3-8 로부터 256 
개마디 SP2 우에서 오직 HO-PD 프로그람만이 이 속도요구에 부합된다는것을 알수 있다. 

체계처리량 또 하나의 속도와 관련된 요구는 처리량이며 처리량은 단위시간동안에 
처 리 되 는 일 감의 수로 정 의 된 다. 한 시 각에 하나의 일 감만이 처 리 된 다. 처 리 량은 실 행 시 
간과 거 끌이 다. 실례 로 표 3-8 에 서 256 개 마디 SP 2 의 APT 프로그람에 대 한 처 리 량은 
0.16s 마다 하나의 APT 이며 초당 6.25APT 이 다. 

처리량은 보통 다중일감이 동시에 실행될 때 사용된다. 많은 경우들에서 체계처리량 
은 다음의 두 방법 에 의하여 증가시 킬 수 있 다. 

• 하나의 방법 은 관흐름화에 의한 방법 이 다. 여 기서 련속인 일감들은 여 러 관흐름 
단계 에서 그 실행 을 중첩한다. 처 리 량은 가장 긴 관흐름선단계실행시 간에서 거 
물로 된다. 

• 다른 방법 은 매 개 마디 에 개 별 적 일 감을 배 정 하는 방법 이 다. w 개 의 일 감은 «개 마 
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디에서 동시에 처리된다. 

실례 3.4. 병렬 APT 에서 처리량과 속도의 계산 

표 3-8 로부터 APT 프로그람의 작업 부하가 9*0.1 b =1.44 Gflop 라는것 을 유도할수 있 다. 
단계마다 128개 마디들을 사용하여 256개 마디 SP 2에서 APT 프로그람에 대한 두 단계 관 
흐름을 구성할수 있 다. 

한 단계는 0.14 s 걸리고 한편 다른것은 0.11 s 걸린다. 따라서 전체 실행시간은 0.16 s 
로부터 0.25 s 로 증가한다. 그러나 처 리 량은 초당 1/0.16 로부터 1/0.14=7.14 APT 로 증가하며 
또는 16.34 Gflop/s 와 등가이 다. 

APT 프로그람은 하나의 SP 2 마디우에서 실행되는데 약 14 s 걸린다. 256마디의 매개에 
몇개의 APT 들이 달리도록 배정할수 있다. 그다음 체계처리량은 초당 256/14=18.294 APT 
로 되며 또는 25.6 Gflop/s 와 등가이다. 

14 s 는 실시 간람지기 신호처 리 에 대 하여 너 무 긴 경 과시 간이 다. 그러 나 직 결트랜잭 션 
처리와 갈은 응용프로그람들에서 받아 들일수 있다. 많은 개발제작환경들에서 그것은 실 
행시간한계의 모임 에 대 한 제 한밑 에서 처 리 량을 최대화하는것 이 공통적 인 체험 이 다. 

실례로 사용자는 직결트랜잭션체계에 대하여 moo 개의 트랜잭션을 처리하도록 요구 
를 규정할수 있고 매 개 개 별적 인 트랜잭선에 대 한 최 대응답시 간은 10 s 보다 많지 않게 규 
정할수 있 다. 

3. 2. 2. 사용률과 비용효과성 

가장 짧은 실행시간을 찾을 대신에 사용자는 보다 효과적인 비용으로 응용프로그람 
을 실행 할것을 요구할수 있다. 부하불균형，통신부가처 리 등으로 하여 랑비되는것 대신 
에 cpu - 시 간의 많은 몫이 쓸모 있는 계산을 위해 리용되기를 바란다. 비용효과성의 훌 
륭한 지적 자는 리 용인자(간단히 리 용)이며 이것은 주어 진 콤퓨터최대속도에 대 한 도달 
된 속도의 비률이다. 다음실례는 이 용어에 대한 물리적의미를 준다. 


실 례 3.5. APT 프로그람에 대 한 IBM SP 2 의 리용 

매 SP 2 마디 는 266 Mflop / s 의 최 대 속도를 가진다. 매 CPU - 시 간은 10딸라에도 부담된 다 
고 가정하자. 표 3-8 로부터 256개 마디우와 1개 마디우에서 APT 프로그람실행에 대한 계 
산을 통해 어느것 이 비용효과성 이 더 큰가를 보자. 

256개 마디 SP 2는 266 x 250=68 Gflop/s 의 최 대속도를 가진다. APT 프로그람은 256개 마 
디우에 서 9 Gflop/s 에 도달하고 1개 마디우에 서 100 Mflop/s 에 도달하였 으며 따라서 각각 
13.3%와 37.6%의 리용을 엄 는다. 이 로부터 한 마디우에 서 실 행하는것 이 보다 더 비 용이 
효과적 이 라는것을 보여 준다. 

사실 상 256개 마디 에 서 하나의 APT 를 한번 실 행하는데 0.16 s 걸린 다. 하나의 APT 실 
행에 대한 전체 비용은 $10 x 256 x 0.16/3600=$0.11 이다. 대응하는 비용효과성은 딸라당 
(9 Gflop / s ) 10.1 l $=82 Gflop/s 이 다. 한 마디 우에 서 실 행 시 간은 약 14.4 s 이 다. 전체 비 용은 다 
만 10$ xl 4.4/3600=0.04$ 이며 비용효과성은 딸라당 (9 Gflop / s )/0.04$=255 Gflop/s 이 다. 
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이 실례 는 높은 리용이 딸라당 높은 Gflop / s 에 대 응한다는것 을 설명해 준다. 이 것은 
CPU - 시 간이 고정 된 비률로 부담된 다면 언제 나 옳다. 

실행시 간속도의 리용은 가장 중요한 척도라는것을 알수 있다. 

리용척 도에 특별한 주의 가 돌려 져 야 하는데 그것 은 흔히 스쳐 지 나가 무관심되 고 
있지만 실행시간과 속도보다 정보가치가 훨씬 높다. 낮은 리용은 언제나 불충분한 프로 
그람이 나 를파일 러 를 가리킨 다. 대 조적 으로 훌륭한 프로그람은 큰 작업 부하로 하여 오랜 실 
행시간을 가질수 있고 기계 가 느리면 속도가 낮을수 있다. 

그런데 얼 마만한 리용값들이 낮다고 고찰되 는가 하는것 은 물론 응용프로그람과 가동 
환경에 의존되지만 우리의 경험과 다른 MPP 사용자들과의 호상작용은 다음과 같은 평가 
를 얻는다. 단일 MPP 처 리 기우에 서 실 행하는 순차응용프로그람은 5%에 서 40%까지 의 범 
위에서 리용을 가지며 대체로 8%로부터 25%사이이다. 몇개의 개별적부분프로그람들은 
더 빨라서 75% 또는 그 이상에 이르게 할수 있다. 

그러 나 이 러한 부분프로그람들이 실제적 인 응용프로그람에 병합되면 그것들은 반드시 
높은 리용을 보존하지 못한다. 다중병 렬처 리 기들우에서 실행하는 병 렬 응용프로그람은 1% 
에서 35%까지의 범위 에서 리용을 가지며 대체 로 4%부터 20%사이 이 다. 일반적 인 그릇된 
견해 는 병 렬계 산의 외 부통신과 무익한 부과처 리 를 가질 때 단일 마디 또는 순차계 산은 언 
제나 높은 리용을 가진다는것인데 이것은 언제나 옳지 않다. 실례로 Intel paragon 에서 실행 
하는 병 렬 APT 프로그람은 한개 마디 가 아니 라 네 개 마디우에서 가장 높은 리용을 가지 였다. 

NA 와 STAP 성능평 가기 준을 사용하여 세 개의 MPP(Intel Paragon , IBM SP 2, Cray T 3 D ) 


16 

마디 4 



■■ APT SP2 
■ '-APT Paragon 
A ART T3D 
» HOPDSP2 
D HOPD Paragon 
A HOPDT3D 


그림 3-1 . 세개의 MPPs 에서 병 렬 APT 와 HO-PD 성 능평 가기 준프로그람의 리용 


표 3-9 _ 6개 콤퓨터의 NAS 평가기준리용 


형래 

기 계 모형 

최대 

최소 

조화평균 

PVP 

Cray C90 

73 

28 

54 

MPP 

Cray T3D 

49 

2 

10 

IBM SP2 

60 

3 

18 

Intel Paragon 

36 

3 

9 

SMP 

SGI Power 

Challenge 

44 

10 

25 

Convex Exemplar 

35 

1 

8 
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우에 서 측정 된 리용값들을 아래 에 서 고찰한다. 그림 3-1 에 서 는 두개 병 렬 STAP 프로그람의 
사용률과 속도를 측정한데 대 하여 보여 준다. 

리용은 5%부터 38%의 범위 이 다. 일 반적 으로 리용은 더 많은 마디들이 사용될 때 떨 
어 진다. 그러 나 이 것은 언제 나 옳지 않다. NAS 병 렬성능평 가기 준결과 [525] 들을 처 리하여 
표 3-9 와 그림 3-2 에서 보여 준다. 



마디 수 



그림 3-2. NAS 병렬평가기준에 대한 세개의 MPPs 의 리용 

세개의 MPP 들에서 리용은 2%로부터 60%까지의 범위 에 있으며 조화평 균은 12%이 다. 
이 결 과들은 판매 자성 능평 가기 준프로그람으로부터 엄 어 졌는데 고도로 최 량화되 였 다. 류 
사한 형태를 가지는 사용자프로그람은 갈은 성능을 얻는데서는 류사하지 않다. 



SPP1000 C916 J916 T916 T3D 6400 SP2-Wide SP2-Thin SX-4/16 PC XL 75 

Convex Cray Cray Cray Cray DEC IBM IBM NEC SGI 
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그림 3-3. 10 개의 1995 년 병렬콤퓨터의 성능/비용 





비용효과성척도는 콤퓨터체계의 성능이 비용률에 용해되지 않으며 그것은 구입비용 
에 대 한 속도의 비률로 정의된다. 비률은 NAS 성능평 가기 준을 실행하는 다양한 콤퓨터 들 
에 대 하여 그림 3-3 에 서 설 명한다. 

백만딸라당 최대 Fflop/s 로 측정되는 성능/비용률은 넓은 변동에 있지만 1995년에 지 
속적 인 성능/비용률은 백만딸라당 lGflop/s 근방에 훨씬 더 많이 집중되였다. 

실례 3.6. 잘못평 가된 최대성능/비용률 

체계를 비교하기 위하여 최대성능/비용률을 리용하는것은 흔히 잘못될수 있다. 그림 
3-3 에서 Cray J 916 의 최대성능/비용률은 Convex SPP 1000, Cray T 3 D , SGI Power Challege 
보다 훨씬 더 낮다. 그러나 그것의 지속적인 성능/비용률은 실제적으로 더 높다. 

흔히 사용자들은 서로 다른 체계들을 비교하는데서 하나이상의 척도를 사용할 필요 
가 있 다. 비 용효과성 이 나 성 능/비 용률을 하나만 리용하면 현재 의 IBM PC 는 대 형 콤퓨터 
나 고속를퓨터 에 비해 PC 의 비용이 훨씬 더 낮기때 문에 보다 강력한 체 계 들을 쉽게 릉 
가할수 있다. 

개 괄하면 실행시 간은 리용자가 요구하는 여 러 성능들중의 하나이 다. 다른것 들은 속 
도, 처 리 량，리용，비 용효과성，성 능/비 용률, 확대 가능성 이 다. 보통 요구모임 이 제 기 된다. 
실례 로 리용자는 일정한 준위 의 처 리 량과 리 용을 실행 시 간제 한밑 에서 요구하게 된다. 사 
용자는 최소속도에서 가장 좋은 성능/비 용률을 가지는 체 계를 선택하려 고 한다. 

3. 3. 기본성능척도 

여 기 서 는 병 렬 를퓨터 들과 마찬가지 로 단일 처 리 기 체 계 에 서 리 용된 성 능척 도들을 연구 
한다. 용어 는 Parkbench 그룹에 의 해서 제 안된것 과 일 치 하며 물리 와 같은 다른 과학분야들 
에서 사용되는 용어를 그대로 따른다. 

3. 3. 1 • 작업부하와 속도척도 

프로그람 c 의 계산작업부하를 재는데 빈번히 리용되는 세가지 척도를 보면 실행시 
간, 실행된 명령수，실행된 류동소수점연산수이다. 첫번째 척도는 특정한 콤퓨터체계에 
구속된다. 그것은 프로그람 c 가 다른 기계우에서 실행될 때 변화될수 있기때문이다. 


표 3-10 __ 작업부하와 속도척도 


작업부하형래 

작업부하단위 

속도단위 

실행시간 

초 (s), CPU 박자 

초당응용프로그람 

명령 계수값 

백 만개 혹은 10억개 명 령 

MIPS 혹은 BIPS 

류동소수점 연산 (flop) 

Flop 

Mflop/s 

계수값 

백 만 flop(Mflop) 

10억 flop(Gflop) 

Gflop/s 
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두번째 척 도는 명 령모임구조 ( ISA ) 에 속박되 며 프로그람이 같은 ISA 를 가지 는 다른 
기 계 우에서 실행 될 때 변화되 지 않는다. 세번째 척 도는 흔히 구조적 으로 독립 이 다. 표 3- 
10은 세가지 성능척도를 모두 개괄하였다. 

명 령계수값 임의 의 프로그람 신에 대 하여 작업 부하의 척 도로서 명 령계수값을 사용 
할수 있는데 그것은 실행되는 명령의 수이다. 이러한 작업부하는 백만단위의 명령들을 
가진다. 대 응하는 속도척도는 초당 명 령의 백만단위 MIPS 이 다. MIPS 비률을 리용하는데 
다음과 같은 몇 가지 를 주의 해 야 한다. 

• 작업 부하는 아쌤 블러프로그람본문(정 적프로그람계 수값)에 서 명 령수가 아니 라 기 
계 가 실행한 명 령들이다(즉 동적명 령계수값). 

• 명령계수값은 입력자료값에 관계된다. 실례로 정돈프로그람은 주어 진 입력에 
대 하여 100000개 명 령들을 수행할수 있지 만 다른것 에 대 해서는 2000개 만을 실 
행할수 있다. 이 러한 입 력의존적 인 프로그람에 대 하여 작업부하는 나른 경우의 
입력 또는 특수한 기준선입력자료모임에 대한 명령계수값으로 정의된다. 

• 입력을 고정하여도 실행된 명령은 각이한 기계들에서 같지 않다. 실례로 RISC 처 
리 기는 동일한 고준위의 언어 가 주어 졌을 때 CISC 처 리 기보다 50%부터 150%나 
더 많은 명 령 들을 실 행한다. 

• 고정된 입력에 대하여 각이한 를파일러나 최량화선택이 리용될 때 동일한 기계 
우에서 프로그람의 명 령계수값은 차이날수 있다. 

• 마지막으로 명령계수값이 크다는것은 프로그람이 더 많은 실행시간을 요구한다 
는것 을 꼭 의 미하지 않는다. 

실행시 간 특정한 를퓨터체 계우의 어 떤 주어 진 프로그람에 대 해서 작업부하를 프로 
그람을 실행하는데 걸리는 전체 시 간으로 정의할수 있다. 이 실행시 간은 벽시계시 간으로 
측정해 야 한다. 그 시 간은 경 과시 간으로 알려 져 있는데 실례 로 Unix 함수 gettimeofdayO 
에 의해 구할수 있 다. 작업 부하의 기 본단위 는 초이 며 분，시 간，미 리초 ( ms )， 마이 크로초 
(» 도 쓸수 있다. 

실행 시 간은 많은 인자들에 의 존되 는데 몇 가지 중요한것 들을 아래 에서 고찰한 다. 

• 알고리듬 사용된 알고리듬은 실행시간에 큰 영향을 준다. 실례로 N 개 항목을 정 
돈하기 위한 정 돈알고리 듬은 0( iV 2 ) 의 실행시 간을 가지 며 병 합정 렬은 다만 
O ( logiV ) 을 가진다. 

• 자료구조 자료를 어떻게 구조화하는가 하는것도 성능에 영향을 준다. 

• 입 력 자료 많은 응용프로그람의 실 행 시 간은 입 력 자료값에 의 존하지 않는다. 실 례 
로 N 점 FFT 프로그람은 O ( NlogiV ) 시간을 가지며 벡토르가 무엇 인가에는 관계 없 
다. 정렬과 탐색프로그람과 같은 다른 프로그람들은 각이한 입력자료에 대해 각 
이 한 시 간을 취 함수 있 다. 왜 냐하면 프로그람조종흐름이 각이한 입 력 자료에 따 
라 변하기때 문이 다. 그러한 입 력의 존성프로그람에 대 해 실행시 간을 작업 부하로 
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리용할 때 나른 경우의 시간 혹은 기준선입력자료모임을 쓸 필요가 있다. 

• 가동환경 명백히 기계하드웨어와 조작체계는 성능에 영향을 준다. 그렇게 명백 
치 않은것은 성능이 처리기가 아닌 다른것의 영향을 받는다는것이다. 동일한 박 
자률에서 동일한 처리기를 사용하는 두 가동환경우에서 완전히 다른 시간결과를 
볼수 있다. 다른 인자들로는 계층기억기(캐쉬，주기억기，디스크)，조작체계변종 
그리고 응용프로그람이 콤퓨터의 사용을 전용화하는가 또는 다른 응용프로그람 
들과 자원을 시분할하는가 하는것 이 될수 있다. 

• 언어 동일한 알고리듬과 자료구조가 동일한 가동환경에서 리용될 때 응용프로그 
탐을 코드화하는데 사용되는 언어들이 서로 다르다면 각이한 실행시간이 걸린다. 
게다가 사용된 콤파일러와 콤파일러/련결편집선택은 중요한 역할을 논다. 2진준 
위서고함수들을 사용하는것 역 시 실행 시 간을 줄인다. 

류동소수점계 수값 수값계 산을 위 주로 하는 과학，공학계 산과 신호처 리응용프로그람 
에 대하여 본질적인 척도는 실행되는데 필요한 류동소수점연산수이다. 표 3-11 은 실천에 
서 리 용된 몇 개 의 규칙 들을 설 명 한다. 

응용프로그람 C 가 간단하고 그것의 작업부하가 입력에 의존하지 않을 때 C 의 작업 
부하는 코드를 검 사하여 결정할수 있 다. 응용코드가 복잡하거 나 작업 부하가 각이한 입 력 
자료에 따라 달라 질 때(실 례 로 정 돈과 탐색문제 들) 특정한 기 계우에 서 응용프로그람을 
실 행하여 작업 부하를 측정할수 있 다. 


표 3-11 _ 류동소수점연산을 계수하는 규칙 


연산 

Flop 

계수 

규칙 설명 

A[2*i]=B[j-l]+1.5*C-2 

3 

더하기，덜기 혹은 곱하기를 1 flop 로서 계수，첨수연산 
은 계수되지 않는다. 

배정은 개별적으로 계수되지 않는다. 

X=Y; 

1 

고립배정은 1 flop 로서 계수된다. 

If(X>Y) Max=2.0*X 

2 

비 교는 1 flop 로서 계 수된 다. 

X=(float)I+3.0; 

2 

형 래변환은 1 flop 로서 계 수된 다. 

X=Y/3.0+sqrt(Z) 

9 

나누기 혹은 두제 곱뿌리 는 4 flop 로서 계 수된 다. 

X=sin(Y)-exp(Z) 

17 

시누스함수，지수함수는 8 flop 로서 계수된다. 


이 특수한 실행은 flop 의 수 또는 실제적으로 실행된 명령의 수에 대한 결과를 엄어 
낸다. 이 방법은 NAS 성능평가기준에서 사용되였으며 거기서 flop 계수값은 Cray Y_MD 
또는 Cray C 90 에서 실행되여 결정된다. 

실 례 3.7. FFT 처 리 에 서 리 용률 

실례 3. 10을 다시 고찰하자. 매 N 4 FFT 는 작업부하 W 느 5 MogMlop 를 가진다. 

콤퓨터 처 리 단계 에 대 한 전체 작업 부하는 2048 x (5 x 8192 xlog 8192) flop 이 거 나 또는 약 
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1.09Gflop 이 다. 

기계 보우에서 50s 의 실행시간을 가지면 속도는 약 22Mflop/s 이다. 기계 보가 
266Mflop/s 의 속도를 가진다고 하자. 도플러 처 리는 리 용률 22/266=8.27% 를 가지 는데 최 대 
성 능에 비해 오히 려 낮은 률이다. 

리 론적 인 성 능해 석 에 서 자주 명 령 이 나 flop 는 동일 한 시 간량을 가진 다고 가정 한다. 
이 유일속도과정 은 실지체 계 에서 는 성 립하지 않는다. 실례 로 단일 IBMSP2 마디우에서 
속도는 5 부터 250Mflop/s 까지 변한다는것 을 볼수 있 다. 따라서 순차실 행시 간은 또한 작업 
부하를 측정하는 명 령계수값이 나 flop 를 보충완비하는데서 널 리 쓰인다. 

3. 3. 2. 순차성능에 대한 추가적설명 

작업부하척도로 실행시간이나 명령계수값을 리용하면 이상한 현상에 부닥친다. 작업 
부하는 갈은 응용프로그람이 다른 체계에서 실행될 때 변한다. 게다가 작업부하는 오직 
프로그람을 실행하여 결정할수 있다. 

Flop 계수값척도는 보다 안정하다. 실례 로 FFT 는 그것 이 어떻게 실행되는가에 관계없 
이 동일한 작업 부하 W 느 5MogMlop 를 가전 다. 보충적 으로 flop 계 수값(더 낮은 정 도로，명 
령계 수값)은 실 행하지 않고 코드를 검 사하여 결 정할수 있 다. 

Flop 계수값과 명 령계수값은 다른 우점 을 가진다. 그것들의 대 응하는 속도와 리용측정 
들은 응용프로그람이 어떻게 잘 실행되는가 하는 몇가지 평가기준을 준다. 

현재 고급언 어프로그람들은 흔히 순차콤퓨터우에 서 5% 에 서 40% 까지 의 리용에 도달 
하고 있으며 병렬콤퓨터우에서는 1% 에서 25% 까지이다. 

높은 수준으로 작성된 프로그람들은 더 높이 도달할수 있다. 실례로 Agarwal 등 [13] 
은 POWER2 처리기의 특수한 구조적특징들을 리용하기 위하여 포트란프로그람들을 작성 
하면 몇 가지 수값부분프로그람들에 서 90% 의 리용에 도달할수 있 다. 

실례 3.8. IBM SM 의 순차성능 

표 3-12 는 단일 SP2 마디 우에 서 STAP 성 능평 가기 준프로그람들의 순차성능을 보여 주 
며 그것은 266-Mflop/s 의 최대속도를 가진다. 

작업 부하값은 원천 STAP 프로그람을 검 사하여 엄 는다. 실행시 간값은 매 구성 요소알 
고리 듬들을 실제 적 으로 측정한데 로부터 나온다. 

실례 로 APT 프로그람은 네개의 구성요소알고리듬으로 갈라 진다. 즉 : 도플러처 리 
(DP), Householder Transform(HT), Beamforming(BF), Target Detection(TD) 로 갈라 진다. 

매 구성 요소알고리 듬은 각이한 실행시 간을 가지 는 각이한 량의 작업 부하를 수행하 
며 따라서 각이한 속도와 리용값을 얻는다. 표 3-12 에 서 리용값들로부터 곧 SP2 의 
POWER2 구조에 대 하여 FFT 프로그람은 너 무 느리 여 락관적 이 지 못하다는것 을 알수 있 
다. 다른 한편 beamforming 프로그람은 아주 좋으며 이러한 내용들을 실행 시간만으로는 
찾아 볼수 없다. 

성능척도에 대한 개괄 종합해 보면 세가지 척도들은 모두 쓸모가 있다. 병렬기계에 
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서 외부연산들이 갈은 문제를 풀기 위하여 실행될 필요는 있지만 응용프로그람성능을 예 
측하고 측정 하는데 서 중요한것 은 단일 작업 부하를 무모순으로 사용한다는것 이 다. 


표 3-12 _ SP 2 에서 순차 STAP 프로그람성능 


프로그람 

구성알고리듬 

작업부하 

(Mflop) 

실행시간 
(s) 

속도 

(Mflop/s) 

리용 
(%) 

APT 

Total 

1447 

14.37 

100 

37.85 

DP 

84 

4.12 

20 

7.65 

HT 

2.88 

0.04 

72 

27.07 

BF 

1314 

9.64 

136 

51.22 

TD 

46 

0.57 

75 

28.01 

HO-PD 

Total 

12,853 

130.61 

98 

37.00 

DP 

220 

11.62 

19 

7.12 

BF 

12,618 

118.82 

106 

39.92 

TD 

14 

0.17 

82 

30.96 

GEN 

Total 

5326 

121.05 

44 

16.54 

DP 

1183 

22.80 

52 

19.51 

HT 

1909 

79.14 

24 

9.06 

BF 

604 

19.11 

32 

11.88 

TD 

1630 

20.23 

82 

31.00 


실천적으로 flop 계수값작업부하는 흔히 표 3-11 의 규칙들에 따라서 코드를 검사하여 
결정한다. 실행시 간은 특정한 기 계(실례 로 SPARCstation 또는 Cray Y - MP ) 에서 하드웨 어， 
가동환경，콤파일 러 선택，입 력 자료모임 등으로 이 루어 지 는 특정한 검 사조건에 기 초하여 
측정된다. 


3. 4. 병렬콤퓨터의 성능 

이 부분에서 는 병 렬콤퓨터 체 계의 성능속성 들을 론의 하며 다음부분에서 병 렬응용프로 
그람의 성 능속성 들에 대 하여 론의한다. 이 미 1.3.2 에 서 언급한것 처 럼 병 렬 체 계 는 계 산적 
이고 그리고 부가처 리의 특성들을 가진다. 

3. 4. 1 . 계 산 특 성 

표 3-13 은 세 가지 상업 적 병 렬 콤퓨터 계 렬 에 대 하여 성 능파라메 터 들에 의 한 리 력 적 인 
값들을 보여 주었다. 여기서 Cray 계렬은 PVP 를, Intel 계렬은 MPP 을， SGI 계렬은 SMP 를 
표현 한다. 

계층기억기 현대 콤퓨터의 성능은 체계가 얼마나 빨리 처리기들과 기억들사이에서 
자료를 움직일수 있는가에 의존한다. 기억기부분체계계층이 그림 3-4 에 제시된다. 매층에 
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현재 의 콤퓨터 들에 서 세 파라메터 의 전형 적 인 값들이 그림 3-4 에 보여 주었 다. 장 
치가 빠르고 작을수록 처 리기와 더 가깝다. 처 리기에 가장 가까운 장치는 등록기인데 그 
것 은 사실상 처 리 기 소편의 한 부분이 다. 일 반적 으로 등록기들로부터 기 능단(실 례 로 ALU ) 
에로 한 단어를 꺼내는데 외부주기들은 필요하지 않다. 따라서 지 연시 간은 0이 다. 그러 
나 등록기들은 아주 제한된 용량을 가진다. 실례로 Intel 80 x 86 처리기들은 32 byte 를 유지 
할수 있는 8개의 등록기를 가진다. 

다른 처 리 기 들(실 례 로 RISC 처 리 기 들과 벡 토르처 리 기 들)은 보다 많은 등록기 들을 가 
지지만 그 용량은 2 KB 를 초과하지 않는다. 대역너비는 다음의 방법으로 평가할수 있다. 

더하기연산은 등록기로부터 두 단어를 꺼낼 때 한단어를 등록기에 보관한다. 주기 
억은 100 MHz 이고 단어길 이 가 64 bit 라고 가정 하자. 

대역너비는 3 x 8 xl 00 xl 0 6 =2.44 B/s 이다. 주기 률이 더 빠르고 처리기 안에서 병렬 연산을 
실행하므로 대 역 너 비는 더 높아 진다. 
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C<2KB 4-256 KB 64KB-4MB 16 MB-16 GB 1-100 GB 

L = 0 cycle 0-2 cycles 2-10 cycles 10-100 cycles 100K-IM cycles 

B = 1-32 GB/s 1-16 GB/s 1-4 GB/s 0.4-2 GB/s 1-16 MB/s 

그림 3-4. 대표적 인 계층기 억기의 성능파라메터 

1차캐쉬는 보통 처리기소편우에 있다. 2차캐쉬는 소편과 떨어 져 있다. 주기억기는 
마디 안에 있는 국부기 억기와 PVP 와 SMP 와 같은 집중형공유기억기를 가진 기계에 대한 
대역기억기를 포함한다. 

원격기 억 기 는 다른 마디 들의 모든 국부기 억 기 를 가리킨 다. 

실 례 3.9. Digital 의 TruCluster 기 억 계 층의 성 능 

DEC TruCluster 는 8포구기 억 기 통로호상련결 에 의 해서 호상접 속된 8개 의 8400 SMP 로 
구성된다. 매 SMP 마디는 12개까지의 처리기 혹은 14 GB 까지의 공유주기억기를 가질수 
있다. 매 처 리 기는 16 KB 1 차캐 쉬 와 96 KB 2 차캐쉬를 가지며 둘 다 소편우에 있다. 

두 처리기에 의해 공유된 4 MB 3 차캐쉬는 소편밖에 있다. 다른 마디들의 원격기억 
기 는 기 억 기 통로호상접 속을 통하여 접 근된 다. 

표 3-14 는 처리기주파수가 300 MHz 일 때 TruCluster 기억 계층의 파라메 터들을 보여 
준다. 이 것 들은 초과될수 없는 가장 좋은 수(하드웨 어최 대)이 다. 사용자처 리 에 의하여 도 
달될수 있는 가장 좋은 수들은 괄호안에서 보여 준다. 300 MB/S 주기억기대역너비는 하 
나의 처 리기가 기 억기에 접근함을 가리킨다. 대역너비는 다중처 리기들이 기 억기 에 동시 
에 접근할 때 982 MB / S 만큼 높일수 있다. 


표 3-14 _ TruCluster 계■기억기의 성능 


장소 

용량 

대역너비 

지연시간 

등록기 

512B 

34GB/S 

3ns (1 clock) 

1 차캐 쉬 

16KB 

9.6GB/S 

3ns (1 clock) 

2 차케 쉬 

96KB 

4.8GB/S 

10ns (3 clocks) 

3 차캐 쉬 

4MB 

1.2GB/S 

20ns (6 clocks) 

주기 억 기 

14GB 

1.6GB/S 

[300MB/S] 

70ns (21 clocks) 

[240ns (80 clocks)] 

원격기억기 

98GB 

lOOMB/s 

[61MB/S] 

5 us (1500 clocks) 
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3. 4. 2. 병렬성과 호상작용부가처리 

리론적인 PRAM 모형에서 병렬성과 호상작용부가처리는 무시된다. 실례로 명령준위 
동기성은 암시적으로 매 명령 다음에 하나의 장벽을 비용이 없이 놓는다. 

임의의 기 억기 단어 를 읽 고 쓰기하는데서는 시 간이 걸리지 않는다. 실제 적 인 병 렬를 
퓨터들에서 이러한 가정들은 맞지 않는다. 중첩을 가정하지 않으면 병렬프로그람을 실행 
하는 시 간은 


T — ^ comp + T p a r + R ； nteract 


(3.2) 


이 다. 

여 기서 는 계산과 병 렬성，호상작용조작을 실행하는데 걸 리는 시 간이 다. 

1.3.2 와 1.3.3 에 서 병 렬 프로그람의 부가처 리 는 세 부류 즉 부하불균형부가처 리，병 렬 
성부가처 리，호상작용부가처 리(동기화，통신，집 합을 포함하는)로 나눈다. 

부하불균형은 어떻게 달성하는가 하는것이 흔히 병렬알고리듬설계문제이다. 이 부분 
에서는 부가처리의 다른 두 부류에 초점을 둔다. 

2.3 의 론의로부터 알수 있는바와 같이 병렬성연산에는 세가지 형태가 있으며 그것들 
은 병 렬 성 부가처 리 의 원 인들이다. 

• 생성，종결，문맥절환 등등과 같은 프로쎄스관리. 

• 프로쎄스그룹생성과 취소와 같은 그룹프로쎄스조작 

• 프로쎄스식별，위수그를식 별，그룹크기를 묻는것과 같은 프로쎄스질문조작 

2.4.1 에서 본바와 같이 호상작용연산에는 세가지 형태가 있는데 그것은 호상작용부가 
처 리의 원인들이다. 

• 동기화 : 장벽，차단，림계범위，사건 

• 집합 : 감소와 주사 

• 통신 : 점대점과 집 합통신 그리 고 공유변수의 읽 기，쓰기 

이 부가처리를 알면 프로그람작성자가 병렬프로그람을 어떻게 개발하는것이 제일 좋 
은가를 결 정 할수 있 다. 실 례 로 병 렬 성 부가처 리 가 작으면 프로그람작성 자는 동적 병 렬 프로 
그람을 작성하는데 여 유를 가질수 있으며 동적병 렬 프로그람에 의해서 프로쎄 스들은 생 성 
되거 나 취소되며 문맥절환될것 이 다. 

이 부가처 리들이 크면 정적병 렬프로그람들이 대 신에 리용되 여 야 한다. 여기서 프로 
쎄스들은 오직 시 작에서 생성되며 제 일 끝에서 만 종결된다. 장벽들이 기 계 에서 효과적으 
로 지 원되 면 문제 를 푸는데 서 동기화된 반복알고리 듬을 사용할수 있 다. 그러 나 차단들이 
시 간을 소비하므로 비 동기알고리 듬을 사용하지 않는것 이 더 좋다. 

거대한 부가처 리 현대 콤퓨터 를 연구할 때 곧 병 렬성과 호상작용부가처 리 에 대 한 
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두가지 문제 에 주목한다. 그것은 흔히 기본계산시 간과 크게 관계되며 체계마다 취급을 
달리 할수 있다. 발생되는 부가처 리를 측정하는데서 세가지 척도를 리용한다. 기본척도는 
실행시 간 ( Ats ) 이 다. 때때 로 동일 한 량의 시 간에서 하나의 마디 에 의하여 실행될수 있는 박 
자주기 의 수 혹은 flop 수를 리용할수 있 다. 

실례로 SP 2 는 66 MHz , 266 Mflop/s POWER 2 처리기들을 사용한다. SP 2 에서 보내기와 받 
기는 최소한 39 s 걸리는데 그것은 2601 CPU 박자주기와 동등하거 나 또는 10374최대 flop 와 
동등하다. 표 3-15 는 McVoy 의 Lmbench 프로그람에서 얻 어 진 몇 가지 단일 Unix 체 계우에서 
의 프로쎄스관리와 통신의 부가처 리를 보여 준다 [440]. 

프로쎄 스생성렬은 실패하면 즉시 에 탈뢰하는 빈 새끼프로쎄스를 가지치 는데 필요한 
시 간을 보여 준다. 

문맥 절 환렬 은 두 프로쎄 스사이 에 서 절 환되 는데 필 요한 시 간을 보여 준다. 관지연시 
간렬은 하나의 관을 통하여 작은 어 휘들을 뒤 로 보내 거 나 앞으로 내 오는데서 두 Unix 처 
리들에 대 한 왕복시 간을 보여 준다. 관대역너 비는 관을 통하여 두 프로쎄 스사이의 50 MB 
의 통보문에 도달될수 있다는것을 보여 준다. 

표 3-16 은 Solaris 조작체 계 [601] 를 실 행 하는 Sun 워 크스테 이 션에서 프로쎄스생 성과 동 
기화에 대한 부가처리를 보여 준다. Solaris 는 프로쎄스의 세 형태들 즉 2, 7, 12장에서 
론의한바와 같이 무거 운 부하 Unix 처 리 , 가벼 운 부하처 리 ( LWP )， 사용자준위스레드를 지 
원한다. Unix 처 리들의 부가처 리들은 하나 또는 두 수준 더 높다. 

이 자료들은 병렬성과 호상작용부가처 리 가 아주 콜수 있다는것을 보여 준다. 실례 
로 POWER 2 처 리 기는 박자주기 당 (15 ns ) 4개의 류동소수점 연산을 수행 할수 있다. 


표 3-15 _ Unix 체계에서 병렬성과 ■신부가처리 


처리기 

조작체 계 

프로쎄스생성 

( MS ) 

문맥 교환 

(/ 上 S) 

관지연시간 

( MS ) 

관대 역 너 비 

(MB/s) 

POWER2 

AIX 3 

1.4K 

21 

138 

N/A 

POWER 

AIX 2 

2.0K 

20 

143 

34 

Pentiun 

Linux 1.1 

3.3K 

66 

157 

13 

Alpha 

OSFI V2.1 

4.8K 

25 

185 

32 


표 3-16 Sdaris 에서 병렬성과 호상작용부가처리 


연 산 

부가처 리 

Unix 프로쎄 스가지 치 기 

3,057/as 

가볍 게 무게화된 프로쎄 스생 성 

422 ms 

사용자준위스레드생성 

101 ms 

프로쎄스준위차단 

105 ms 

스레 드준위 차단 

1.8 ms 


표 3-15 부터 Unix 처 리 를 생 성하는 시 간 (1.4K/IS) 은 372000flops 를 실 행하는데 충분히 
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긴 시간이다. 

지어 갈은 처리기가 사용될 때조차 부가처리값은 역시 한 체계로부터 다른 체계사이 
에서 크게 달타 진다. 사용자들은 과거의 “류사” 한 체계에 대한 경험으로부터 부가처 
리가 존재하겠는가를 추정할수 없다. 사용자가 비용이 드는 병렬성과 호상작용연산을 쓰 
지 않도록 하는 부가처 리값을 아는것 이 중요하다. 

흔히 부가처 리는 주로 os 핵심부나 체계쏘프트웨어비용에 의하여 생겨 난다. 따라서 
부가처리는 체계마다 완전히 다르며 지어 체계들이 같은 처리기구조를 쓸 때조차 다르다. 

SP 2 에 서 절 환의 하드웨 어지 연시 간은 Ip 보다 작다. 그러 나 지 연시 간은 핵 심 부준위 
IP 규약을 사용한다면 수백 사 s 로 대 폭 늘어 난다. IBM 은 핵 심 부를 무시하는 사용자공간규 
약을 실현하는데 그것은 지 연시 간을 39| is 만큼 작게 감소시 킨다. 

3. 4. 3. 부가처리의 정량화 

병 렬성 과 호상작용부가처 리 들은 중요하기 때 문에 정 량화하여 야 한다. 정 량화된 부가 
처리들은 실제적인 콤퓨터에서 여전히 부족점을 가지고 있다. 병렬콤퓨터회사들은 마디 
또는 «개마디체계당 피크성능 (MIPS 또는 Mflop / s ) 과 같은 콤퓨터성능자료들을 여러가지 
형식으로 제공한다. 

그와는 반대로 점대점통신에서는 시동과 대역너비를 제외하고 부가처리자료들을 거 
의 제공하지 못한다. 이 문제에 대한 대답은 어렵다. 체계를 생성하고 하나의 프로쎄스그 
룹를 분할하며 장벽 동기 화를 진행 하고 임의 로 현존병 렬콤퓨터 우에서 집 중감시를 수행하는 
데 얼마나 오랜 시간이 걸리는가 하는 문제는 때때로 판매자들조차도 답변을 하지 못한다. 

사용자들은 흔히 자체 로 부가처 리 를 측정해 야 하며 오히 려 그것 은 비 용이 드는 문제 
이다. 

병 렬 콤퓨터 들에 대 한 수많은 성 능평 가기 준과 척 도들이 제 기 되 였지 만 부가처 리 평 가는 
조금밖에 제 공하지 못하였 다. 부가처 리 를 측정하는 현존성 능평 가기 준들은 PARKBENCH 
성능평 가기준묶음을 포함하는데 [317] 그것은 점대점통신과 분산기 억 MPP 에 대 한 장벽동 
기 화를 즉정 한다. 

점 대점통신에 대 하예 314] Hockney [313] 이 제 안한 파라메 터 r 이， m 1/2 , 이과 째는 잘 알 
려 진 부가처 리척 도들이다. 병 렬 콤퓨터판매 자들은 부가처 리 를 정 량화하기 위하여 닫긴 
형식의 표현들의 모임을 제공하였다. 

왜 냐하면 판매 자들은 기 능적 인 척 도들(바꾸어 말하면 부가처 리 식 들에 서 결 수들)을 
유도하고 조정설비들을 측정하는데서 가장 좋은 위치에 있기때문이다. 리상적으로 이 부 
가처 리식 들은 PVM 과 MPI 와 같은 그러한 표준들에 의해서 모든 연산들을 정 량화해 야 한 
다. 최소한 모든 호상작용연산들을 정 량화해야 한다. 이 단계에서 일반적 인 평가기준들이 
아래에서 고찰된다. 또한 이 평가기준들은 부가처리식을 엄어 내는데 리용된다. 

부가처 리 즉정 조건 

측정실험들을 구성하는 엄밀한 조건들을 명백 히 하여 야 한다. 

• 사용되 는 자료구조 
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• 프로그람작성언어서고 그리고 사용되는 콤파일러선택 

• 일반적 으로 부가처 리특징은 묶음처 리 방식으로 수행되 여 야 한다. 왜 냐하면 이것 
은 대부분의 제품들이 실행되는 방식이기때문이다. 

• 사용되는 통신하드웨어와 규약 

• 시계시 간을 측정하겠는가 또는 CPU 시 간을 측정하겠는가 하는것 인데 일 반적 으로 
시계시간이 더 쓸모 있다. 

실례 3.10. 400개 마디 IBM 사 *2 의 통신부가처 리 

[655] 에 서 256 개 의 마디 까지 에 대 한 IBM SP2 MPP 의 통신부가처 리 를 측정하였 다. 측 
정조건들은 다음과 같다. 

• 리용된 자료구조는 언제나 마디기억에 충분히 적합하도록 작게 만들어 비용이 
드는 폐지고장이 일어 나지 않도록 한다. 

• 검 사프로그람은 표준 C 로 작성한다. 리 용된 서 고함수는 표준 I/O, 시 간함수 그 
리 고 MPI (혹은 MPL) 통신함수들이다. 다른 서 고함수 혹은 아쌤 블러코드는 허 용 
하지 않는다. 

• 가장 좋은 콤파일 러 선택 이 언제 나 리 용된 다. 즉 mpccK)3-9arch=pwr2_C 프로그람 

콤파일러 mpcc 는 사실상 IBM 콤파일러를 호출하고 MPI 와 MPL 서고를 련결하 

는 script 파일 이 다. 

• 체 계 자원을 가능한껏 리 용하여 조작체 계 와 다른 리 용자처 리 에서 의 간섭 을 최 소 
화한다. Host,list 파일 즉 유일하게 주어 진 host 이 름에 기 록함으로써 매 256 개 마 
더 들은 한프로쎄 스에 의해 혼자서 쓰일 수 있는 모임 이 다. 

• SP2 은 Ethernet 혹은 소유권 고성능절환기 (HPS) 를 통하여 통신을 진행한다. 매 
통신매 체 에 대 하여 서 는 표준인 터네 트규약 (IP 규약) 혹은 IBM 전개 된 사용자공간규 
약 (US 규약)을 통하여 통신을 실현할수 있 다. 가장 좋은 통신성 능을 얻 기 위하여 
US 규약을 통한 HPS 를 리용하는 다음과 같은 환경변수들을 선택할수 있 다. 

Setenv EUIDEVICE csso/*(Ethernet 대 신에 HPS 리용)*/ 

Setnv EUILIB us/*(Ip 대 신에 OS 규약리용)*/ 

시 계 시 간과 CPU 시 간(체 계시 간과 사용자시 간)의 두가지 는 검 사결 과에 서 믿 음성 을 얻 
기 위 해 측정 한다. Unix 시 간함수는 CPU 시 간을 측정 하기 위 해 리 용되 고 gettimeofdayO 함 
수는 시 계 시 간을 측정 하기 위 해 리 용된 다. 

부가처 리측정방법 부가처 리를 측정하는것은 간단해 보이지만 정확한 측정결과를 얻 
는것 은 매 우 힘 든 일 이 다. 이 것 은 세 가지 리 유에 기 인 한다. 

첫째 로，대 부분의 콤퓨터 체 계 들은 조잡한 시 간측정 기 분해 를 마이 크로초 지 어 는 미 리 
초순서로 보장한다. 

둘째로, 병렬콤퓨터 특히 MPPs 와 클라스터들에서 처리기들은 흔히 비동기적으로 동 
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작하므로 일반박자에 따르지 않는다. 이것은 시간동기화문제 [1] 를 일으킨다. 즉 처리기들 
이 동시에 동작하도록 하는것은 대단히 힘들다. 

셋째로, 측정결과들은 지어는 같은 통신동작에 대하여서도 서로 다르게 변할수 있다. 
점 대 점 통신(실 례 로 마디 0과 마디 1사이 ) 에 대 한 일 반화된 방법 은 Ping - Pong 도식 이 다. 

마디 0은 매 개 byte 의 통보문을 마디 1로 보내 는 보내 기동작을 실 행하며 마디 1은 
통보문을 얻 기 위하여 대 응하는 받기 를 실 행한다. 그다음 마디 1은 즉시 갈은 통보문을 
마디 0으로 되돌려 보낸다. 

이 Ping - Pong 동작의 전체 시 간을 점대 점 통신시 간을 얻 기 위하여 2로 나눈다. 즉 단 
하나의 보내 기 혹은 받기 동작을 실 행하는 시 간이 바로 점대 점 통신시 간이 다. 

이 절 차를 다음과 갈은 실 례 로써 설 명한다. 

실 례 3.11. 지 연시 간을 측정하는 Ping - Pong 도식 

Ping - Pong 도식은 아래와 같이 서술한다. 
for ( i =0; i < Runs ; i ++) 

if ( my _ node _ id ==0) { /* 보내 기 */ 

Tmp = Second (); 

Start _ time = Second () ; 

Send an m-byte message to node 1; 

Receive an m - byte message from node 1; 

End _ time = second (); 

Timer _ overhead = start _ time - tmp ; 

Total _ time = end _ time - start _ time - timer _ overhead ; 

Communication_time [ i ] = total _ time /2; 

} else if ( my _ node_id ==1) { /* 받기 */ 

receive an m-byte message from node 0; 
send an m-byte message to node 0; 

} 

} 

Runs 고리는 통신시간을 엄는데 쓰이며 그로부터 최대，최소，평균값들을 계산할수 있 
다. Ping - Pong 도식 은 시 간동기 화문제 에 의해 영 향을 받지 않는다. 때 문에 시 간측정 기함수 
SecondO 는 다만 한개 처리기(마디 0) 에서 실행된다. 

Ping - Pong 도식의 일반화는 hot _ potato ( fire _ brigade 로 알려 진) 방법 이 다. 

두개 마디(보내기와 받기)대신에 n 개 마디를 포함한다. 

마디 0은 mbyte 통보문을 마디 1에 보내 고 마디 1은 즉시 같은 통보문을 마디 2로 보 
낸다. 결국 마디 n _ l 은 통보문을 마디 0으로 되돌려 보낸다. 

실례 3.12. 집중통신성능측정 

분산기 억기 다중콤퓨터 의 n 개의 매 마디 들에 의해 실행 되 는 다음과 같은 SPMD 프로 
그람을 고찰하자. 
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장벽은 측정 처 리 에서 비동기 동작을 동기 화하는데 적 용한다. 


for ( i =0 ; i<Runs ; i ++) { 

barrier synchronization ; 
tmp = Second (); 
start _ time = Second (); 
for ( j =0; j < lterations ; j ++) 

the _ collective _ routine _ being _ message ; 

end _ time = Secnod (); 



total _ time = end _ time _ start _ time_overhead 

local _ time = total _ time/Iterations 

communication _ time [ i]=maximum of all n local_time values ; 

[ 

for ( i=0 ; i < Runs ; i++) { 
if (my_node_id ==0) { 
tmp = Second(); 
start_time - Second(); 

} 미 

node 0 broadcasts an empty message to all n nodes ; 
for ( j=0 ； j< Iterations ; j++) 

the co I lective__routine_being_measured; 
all nodes perform an empty reduction to node 0 ; 
if (my node id ==0) { 
end_time - Second。; 
timer 一 overhead = start_time - tmp ; 

communication_time[i] =end_time - start_time - timer_overhead; 



장벽동기화는 마디를 시간동기화하려고 시도하는데 실현될수 없다. 장벽은 국부동 
기 화동작이 지 시 간동기 화동작은 아니 다. 

결 론적 으로 마디 들은 tmp = Second () 명 령 이 동시 에 실 행 하도록 반드시 출발하지 않 
는다. 도식은 어 느것 이 집 중동작을 위한 Ping - Pong 방법 을 일 반화하는가 하는것 을 보 
여 준 다. 

이 방법은 마디 0에서만 시간을 계수함으로써 시간동기화문제를 피한다. 방송동작 
은 모든 마디들을 출발하게 하며 감소동작은 모든 마디를 끝나게 한다. 

방송동작전에 마디 는 반복고리실행 을 시 작할수 없다. 감소동작후에 모든 마디 들은 
반복고리를 끝낸다. 

반복값이 충분히 크면 방송동작과 감소동작에 대 해 일 어 난 장애(교란)는 무시할수 
있 다. 
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부가처러표현 측정으로부터 부가처리자료를 얻은 후 그것들을 어떻게 해석하는가? 
다음과 갈은 세 가지 해 석방법들 이 제 기 된 다. 


표 3-17 _ SP2 에서 한틍로 점대점틍신시간 


통보문크기 

기계 크기 « 

2 

8 

32 

128 

48 

46 

47 

48 


1KB 

101 

120 

120 

133 

64KB 

1969 

1948 

1978 

2215 

4MB 

1.2M 

1.2M 

1.2M 

1.2M 


방법 1 표에 자료를 제 시한다. 실례 로 표 3-17 은 소유 MPL 통신서고를 동작시 킴으 
로써 SP 2 에서 점대점통신에 대 한 시 간측정 결과를 보여 준다. 그것은 마디 0이 m byte 통 
보문을 마디 n_l 로 보내 는 Cus ) 부가처 리 를 보여 준다. 이 방법 은 가장 정 확하고 상세한 
정 보를 제시한다. 그러 나 이것은 사용자에 대 하여 편리하지 않다. 

방법 2 자료를 그림 3-5 에서 보여 주는바와 같이 곡선으로 제시하자. 우점은 곡선 
이 통신부가처리증가경향을 보여 줄수 있다는것이다. 

방법 3 리 상적 으로 사용자는 여 러 가지 통보문길 이 와 기 계 크기 에 대 한 부가처 리 를 평 
가하는데 리용할수 있는 단순닫긴형표현을 쓰는것 을 더 좋아 하지 만 바로 측정 된것 들은 
그러한것 이 아니 다. 

실례로 측정된 시간자료의 최소평방정합을 리용하여 우리는 SP 2 에서 점대점통신부가처 
리를 통보문길이의 선형 함수로써 표현할수 있다. 즉 ^46+0.035 m / is . 

실제 로 진행하면 곡선정 합에 의해 일 어 난 불정 확성 은 그림 3-5 에 서 보여 주는바와 
같이 작다. 



그림 3-5. SP2 에서 점대점통신의 부가처리 

병 렬성부가처 리 많은 병 렬처 리응용에서 동일한 병 렬프로그람이 생자료를 처 리 하기 
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위해 여러번 실행된다. 모든 프로쎄스들과 그룹들을 창조하는 한번의 부가처리가 있는데 
그것 은 다음 계 산에 리 용할수 있 다. 다른 말로 병 렬 성 부가처 리 는 해제된다. 

프로쎄스나 그룹을 창조하는것은 병렬콤퓨터 특히 MPPs 와 클라스터에서 비용이 든 
다. 측정 결과 [655] 를 보면 SP 2 에 서 프로쎄 스를 창조하는것 은 약 10000 /is 혹은 그이상이 
걸 리 며 수백 만개 의 류동소수점 연산과 등가이 다 . 

그롭창조는 1 ms 걸린 다. 

많은 프로쎄 스그룹을 창조하는데 필요한 프로그람은 큰 grain 크기 를 가져 야 한다. 

점대 점 통신 Hockey [315] 는 점대 점 동작에 대 한 통신시 간 (； us ) 을 특징 짓 는 모형 을 아래 
와 같이 제 기하였 다. 여 기서 통신부가처 리 代 m ) 은 통보문길 이 m ( byte 에서)의 선형함수이 
다. 즉 


t ( m ) = t 0 + m / r <xl (3.3) 

。은 jus 단위의 시동시간， r 。。 는 MB/s 단위의 접근대역너비이다. 

두개의 추가적 인 파라메 터 들은 Hockvey 에 의 해 도입 되 였 다. m 1/2 byte 로 표시 되 는 피 크 
절 반길 이 는 점 근대 역 너 비 의 절 반을 얻 는데 요구되 는 통보문길 이 이 다 . 

TToMB/s 로 표시되는 특수한 성능은 짧은 통보문에 대 한 대역너비를 가리킨다. 4개 
의 파라메 터 두개만 독립 이 고 다른 두개는 다음과 같은 관계 

호。= 지/ᄅ/〜 = 1 /tto 을 써서 유도할수 있다. 파라메 터 m 1/2 은 체계가 짧은 통보문통신 
을 얼마나 잘 지 원하는가를 보여 주는 량이다. 

SP 2 에 대하여 아 m ) = 46 + 0.035 m 이다. 다른 말로 시동부가처리는 〜 = 46 ；us 이고 점근대역 
너비는 1/0.035 = 28.57 MB/s 이며 최대절반의 통보문길이는 m 1/2 = “Xk =1314 이다. 

집 중통신 우리 는 다음과 갈은 집 중통신을 측정하였 다. 

방송동작에서 처리기 044은 mbyte 통보문을 모든 «처리기들에 보낸다. 수집동작에서 
처리기 0은 n 개의 매 처리기들로부터 mbyte 통보문을 밤으므로 마지막에는 mnbyte 를 받 
는다. 

산란동작에서 처 리기 0은 명백 한 mbyte 통보문을 «개의 매 처 리기들에 보내며 마지막 
에는 처리기 0에 의 해 mrabyte 가 보내여 진 다. 

전체 교환동작에서 매 처 리 기는 명백 한 mbyte 통보문을 n 개의 매 처 리기들에 보내 여 
마지 막에 는 mn 2 byte 들 이 통신된 다 . 

순환밀기동작에서 처리기 i 는 mbyte 통보문을 처리기 /+1에 보내고 처리기 «_1은 
mbyte 를 처리기 0으로 되돌려 보낸다. 

현재 통보문넘기기체계에서 집중통신은 통보문을 자기자체에 보내는 프로쎄스를 언 
제나 요구한다는것을 주목하자. 

그것은 m ' byte 가 전체 교환에서 통신되지 만 m «( n _ l ) byte 는 통신되지 않기때 문이 다. 

우리는 식 (3.3) 의 Hockey 의 표현을 아래와 같이 확장하였다. 즉 통신부가처리 
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r ( m ， 비은 m 과 « 개 의 함수이다. 그러 나 시 동지 연시 간은 n 에만 의 존한다. 

점근대역너비은 역시 기계크기 n 에 따라 변하며 식 (3.3) 에서와 같이 더는 상 
수가 아니다. 

T ( m , n ) = t 0 ( n ) + m / r oo ( n ) (3.4) 


표 3-18 _ SP 2 에 대한 집중름신부가처리표현 


동작 

시 간측정 식 

방송 

(521ogn)+(0.0291ogn)m 

수집/산란 

(171ogn+15)+(0.025n-0.02)m 

전체 교환 

SOlogn+CO.OSn 129 )m 

순환밀 기 

(61ogn+60)+(0.0031ogn+0.04)m 


측정된 시 간측정자료를。(«)와 r M ( n ) 의 여 러 가지 형 식 에서 정 합한후에 표 3-18 에 
서 보여 주는바와 같이 5개의 집중동작에 대한 식을 유도하였다. 

집 중계 산 우리 는 3개 의 대 표적 인 집 중계 산동작 즉 장벽，감소，주사를 측정하였 다. 
곡선정 합부가처 리표현들은 표 3-19 에 서 보여 준다. 


표 3-19 SP 2 에 대한 집중계산부가처리 


동작 

시간식 

장벽 

941ogn+10 

감소 

201ogn+23 

주사 

601ogn-25 


256개 처 리기 이상에 대한 장벽부가처 리는 768/ is 이며 768 x 266=202692 flop (류동소수점 연 
산)만큼 실 행 하는 시 간과 등가이 다. 

이것은 동기알고리듬을 왜 리용해야 하는가 하는 질문에 대답한다. 그대답은 grain 
크기가 클 때뿐이 다. 

이 방법 [656] 은 정확성을 얻기 위해 매 동작을 개별적으로 량자화하는 방법을 요구한다. 
그러나 부가처리표현은 주어 진 콤퓨터가동환경에 대하여 단 한번만에 측정되고 유도될것 
을 요구하며 사용자공동에 의해 여 러번 리용될수 있다. 

방법 을 그림 3-6 에 서 짧은 통보문과 긴 통보문 두가지 에 대 해 예 측을 진행하여 비 교 
하였다. 

그림 3-6 의 가)에서는 wn 2 =16 MB (실례로 m =1024 byte ， n =128) 일 때 두 방법의 상대적 
오차를 보여 준다. 전통적인 방법은 특히 많은 수의 처리기들에 대하여 부가처리를 과 
소평 가한다. 
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) 16MB 통보문의 전체교환에 ᅳ 1400 /o 

대한 상대적오차 



8 16 32 64 128 

마디 수 



마디 수 

그림 3-6. 전체 교환부가처 리를 예측하는 두가지 방법 


L ) 에 서 는 mn 2 =64 KB (실 례 로 «=128일 때 m =4 byte ) 일 때 측정 된 부가처 리 를 두 방법 에 
의해 실 행 된것 과 비 교한다. 

우리의 방법 은 측정된 결과에 접 근하였으며 전통적 인 방법 은 대형기계들에 대 하여 
부가처 리 를 명 백 히 과대 평 가하였 다. 

3.5. 병렬프로그람의 성능 

이 절에서 우리는 병렬리용에 대한 많은 성능론점들과 척도를 고찰한다. 

우리의 목적은 해석을 례를 들어 설명하기 위해 위상병렬모형리용에 기초한다. 
제기된 모든 성능척도는 다른 형태의 병렬프로그람에 적용해도 마찬가지이다. 
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3. 5. 1 • 성능척도 

A : 개 의 주요한 계 산위 상수렬 (기，신 2 ，…， C 、 로 이 루어 진 련속프로그람 C 를 고찰하자. 
우리는 병렬성정도 DOP , ■를 가진 매 위상 C , 를 써서 C 로부터 효과적인 병렬프로그람을 
전개하려 고 한다. 병 렬성 과 호상작용은 둘 다 부가처 리 를 도입한다. 위 상병 렬 프로그람을 
그림 3-7 에 묘사하였다. 

우리는 병렬프로그람의 출발에서 덩 어 리병렬성부가처 리가 있다고 가정한다. 



그림 3-7. 응용프로그람알고 리 듬의 위 상병 렬 모형 

기 본척 도 의 미 론적 으로 한개 위 상(걸 음)의 모든 동작들은 다음걸 음이 시 작되 기전에 
끝나야 한다. 

걸음 C , 는 쪄백 만개 류동소수점 연산 ( Mflop ) 의 계산적 작업부하를 가지며 한개 처리기 
에서 실행시간은 7\(於이 다. 그것은 DOP , 의 병 렬성정도를 가진다. 

다른 말로 말하면 1 < « < DOPi 인 n 개 처 리 기 에 서 실 행 할 때 걸 음 Ci 에 대 한 병 렬 실 
행 시간은 r „ 的 = 7\(/)/«이 다. 

AT 개 마디에 관한 전체 병렬실행시간은 다음과 같다. 



+ T par +T int 


(3.5) 


여기서 와 T interact 는 각각 모든 병렬성과 호상작용을 표시한다. 

극값척 도 r „ ，' 에 대 한 하계 (아래 제 한)와 상계 (웃제 한)를 주는 몇 개 의 극값척 도가 
있 다. 

7느를 림계경로의 길이라고 하자. 그것은 제한되지 않는 마디수를 리용하고 모든 병 
렬 성 과 호상작용부가처 리 를 배 제 하는 응용프로그람실 행 시 간과 등가이 다. 

식 (3.5) 로부터 


네 


m) 

1)0키 


(3.6) 


T „=7 노 가 성 립하는 가장 작은 n 을 최대병 렬성 이 라고 부르고^ V max 로 표시한다. 이 
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척 도는 尺 max =max 凶상 ( DO 均)를 씨 서 계 산할수 
(웃제한)로서 최대성능 7\。=，/7느를 가진다 
의 하계(아래제한)를 가진다. 즉 


T n > max ( T l / n , T 。。) 

t 병렬성 자/7 느는 속도에서 상계 (웃 제한)를 제공 굿 


tit 는 모든 병 렬 성 과 호상작용부가처 리 를 배 제함으 
한된 다는것 을 증명하였 다 [109]. 

T 1 / n < T „< T l /n + T 00 

(3.7) 과 통합하면 

max ( T 1 / n , T co )< T „< T l / 


표 3-20 


우 I 상병렬모형에 기초한 성 








이 부등식들은 병렬실행시간을 평가하는데 쓸모 있다. 


다른 척도 평균립도는 ，/r ᄋ으로 정의한다. 

여기서，는 전체 작업부하이며 T 0 = T intemct + P par 는 모든 병렬성과 호상작용부가처 
리 를 포함하는 전체 부가처 리 이 다. 

역 (reciprocal) 척 도를 평 균부가처 리 라고 부르며 r 0 / ，토서 정 의 한다. 많은 경 우에 전 
체 부가처리는 통신부가처리에 의해 결정된다. 

이 척도를 표 3-20 에 종합한다. 

실례 3.13. 병렬 APT 성능평가기준프로그람의 성능척도 

APT 프로그람에 대 한 조잡한 (coarse-grain) 위 상병 렬알고리 듬을 그림 3_8에 서 보여 
준다. 파라메터 는 八느256이 다. 

DP 단계는 8192개 마디까지 올라 가 분포될수 있다. 전체 교환단계는 통보문의 총 길 
이 가 17MB 인 모든 마디 에 의해 실 행 될 수 있 다. 

HT 단계는 단일마디 (DOP=l) 에서 련속적으로 실행된다. 

방송동작은 80KB 통보문을 모든 마디 에 보낸다. 

BF 단계 는 256개 마디 를 리 용하는 beamforming 을 수행 한다. TD 단계 는 256개 마디 에 서 
국부적 으로 목표를 추적하는데 필요하다. 

그러면 모든 국부목표기록들은 최종집중감소동작을 통하여 합쳐 진다. 


DOP = 8192 

작업부하 = 84Mflop ， 4.12s 
통보문길이 m = 16.7/w 2 MB 

DOP= 1 

작업부하 =2.88 Mflop, 0.04 s 
통보문길이 m = 80 KB 

DOP = 256 

작업부하 = 1314 Mflop, 9.64 s 
DOP = 256 

작업부하 = 46 Mflop, 0.57 s 
기록당 100 flop 수 

그림 3-8. STAP 에 서 병 렬 APT 알고리 듬구조 
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매 계산단계의 작업부하를 표 3-12 에 제시하는데 한 SP 2 마디 에서 Mflop 와 실행시 간 
을 보여 준다. 

병 렬부가처 리 는 무시 할수 있 다. 왜 냐하면 정 적 과제 작성 이 SK 에 서 리 용되 였기 때 문이 다. 
성능척도의 극값을 예 측하여 모든 통신부가처 리를 무시할수 있다. 이것 을 령부가처 
리예측이 라고 부론다. 그림 3-8 로부터 최대병 렬성은 max (8192, 1, 256, 256)=8192, 전체 작 
업 부하는 W = 1447 Mflop 이 고 련 속실 행 시 간은 T x = 14.37 s , 림 계 경 로는 다음과 같다. 


v H 2. O 04 + 9 ： 64 + 
8192 1 256 


0.57 

256 


= 0.08 s 


따라서 최대성능은 =W/T oa =1447/0.08 = 18087 Mflop/s 이고 
평 균병 렬성 은 자/7느 =14.37/0.08 = 180 이 다. 


실 례 3.14. APT 성 능평 가기 준에 서 호상작용부가처 리 평 가 

우리는 SP 2 에서 병렬 APT 프로그람이 동작할 때의 호상작용부가처 리 T iBteract 를 평가하 
기 위하여 표 3-18 과 표 3-19 에 서 의 부가처 리표현을 리용할수 있 다. 

호상작용부가처 리 는 3개 통신의 통합이다. 즉 

T i nteract — ^ index + ^ncast + ^reduce 


표 3-18 과 그림 3-8 로부터 16.7 MB 의 전체 교환부가처 리는 다음과 같다. 

r inde;l . = 801 ogn + 0.03 n L 29 m^s = 0.000081 ogn + 0.5 n _ °' 71 5 'econds (3.10) 


Broadcast 부가처 리 는 

T bcast = 52 logn + (0.029 logn ) m^t s = 0.002371 ogn seconds 로 표현 할수 있 다. 

표 3-19 로부터 nflop (류동소수점 연산)수를 감소하는 시 간은 «개의 매 마디 로부터 
201 ogn + 23 "s 이 다. 

그림 3-8 의 감소단계에서 개 목표기록들을 결합하는것이 필요하며 그러면 매개는 
lOOflop 수를 가진다. 

감소부가처 리를 보수적 으로 평 가하면 다음과 같다. 

T reduce = 1 00(20 logn + 23 )jUs = 0.0021 ogn + 0.0023 seconds (3.11) 

그러면 전체 호상작용부가처리는 

T 0 =T intemct =0.5n~ OJ1 +0.004451 ogn +0.0023 . (3.12) 
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병렬처리에서 일반적인 견해는 더 많은 마디들이 쓰일 때 통신부가처리가 증가한다 
는것 이 다. 

우의 실례가 보여 주는바와 같이 이러한 견해는 거짓이 될수 있다. 

APT 프로그람에서 통신부가처 리는 상수요소(0.0023)，증가부분 (0.00451 ogn )， 감소부분 
(0.5«세)을 가지고 있다. 

망효과는 256개 마디 이 상 쓰이 지 않을 때 전체 통신부가처 리 의 기 계크기 가 증가하는 
데 따라 감소한다는것 이다. 


실례 3.15. APT 성능평 가기준의 기대실행시 간 

우리는 «마디 SP 2 에서 그림 3-8 의 병렬 APT 알고리듬의 실행시간 7；을 예측한다. 여 
기서 n <256 이다. 

또한 256개 마디 가 쓰일 때 평 균립 도를 계 산한다. 자세한 유도는 련습(문제 3.6) 으로 
남긴 다. 

«마디 를 리용하는 전체 실행시 간은 다음과 갈다. 

T n = T comp +T par+ T i nteract 

= l ^ + 0 .5 n - 0J1 + 0.004451 ogn + 0.0423 
n 


전체 작업 부하는 W =1447 Mflop 혹은 SP 2 마디 에 서 14.37 이 다. 평 균립도는 


元 


(3.13) 


평 균적 으로 256개 마디 들은 통신의 매 us 에 대 하여 30,209 flop (류동소수점연산) 혹은 
통신의 매 ；us 에 대 하여 마디당 30209/256=1 18 flop 이 다. 

평균부가처 리는 통신의 매 Mflop 에 대해 l /30209=33 us 이 다. 

또한 작업부하로써 실행시 간을 리용할수 있다. 그러 면 평 균립도는 


W 

元 


그리하여 평 균적 으로 256개 마디 들은 통신의 매 초에 대 하여 300 s 의 계 산을 혹은 통신 
의 매 초에 대 하여 마디당 300/256=1.17 s 의 계 산을 진행한다. 
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3. 5. 2. 성능평가기준에서 유효병렬성 


응용프로그람에는 잠재적인 병렬성의 넓은 범위가 있다(병렬성할 가능성이 아주 풍 
부하다.). 

공학과 과학코드 ( code ) 들은 자료병 렬성 으로 인 하여 높은 DOP 를 공개한다. 
Kumar (1988) 는 계 산성 이 강한 코드들은 리 상화된 환경 에 서 매 박자주기 에 서 동시 에 
500-3500 산수연산을 실 행할수 있 다는것 을 제 출하였 다. 

그러나 명령준위의 병렬성은 훨씬 낮다. 

Wall [632] 는 명 령준위 의 병 렬 성 한계 가 5근방이 며 드물게 는 7을 초과한다는것을 지적 
하였다. 

Bulter 등 (1991) 은 모든 제 약들이 제거 되 였을 때 어 떤 과학적 프로그람들에서 IPL 은 
주기당 17개 명 령을 초과할수 있다는것을 보고하였다. 


표 3-21 PERFECT 성능평가기준프로그람의 평균병렬 성 


프포그 « 

범 1 S 성 


법령 성 

그림， 

병명 U 

APM 

m 

FLW2 

m.9 

QCD 

2.4 

AR 幻 O 


MDG 

5,3 


n.t 

BDNA 

1 比 S 

MG?P 

1,3 

TRACK 


DVTESM 

17.9 

OCEAW 

2724 

TRFD 

삐 


일부 추적 결과들은 구성 방식 과 콤파일 러 를 잘 구성 하면 합리 적 으로 설계 된 초스칼라 
처 리 기 에 서 주기 당 2.0-5.8명 령 의 이를 예 상할수 있 다. 

12개의 프로그람에 대 한 PERFECT 성능평 가기준을 표 3-21 에 준다. 

실 례 3.16. 기 호수자프로그람에 서 순환고리병 렬 성 

Larus [392] 는 표 3_22에서 보여 주는바와 같이 6개의 실지 프로그람에서 평균병렬성 
을 추적하였 다. 

고리의 병 렬실행만을 고찰하면 무한히 많은 처 리 기들이 유효하다고 가정 하고 모든 
병 렬 성 과 호상작용부가처 리 를 무시한다. 

Gcc ， xlosp ， espresso 들은 기 호리용이 고 sgefw 와 dcgc 는 수자리용이 며 costScale 은 두개 
클라스의 결합이다. 

작업 부하렬 은 프로그람을 순차적 으로 실 행하는데 필 요한 백 만박자주기수를 보여 
준다. 

모든 란들은 모든 고리-연장의존성들이 동기화되는데 필요할 때 평균병렬성을 보 
여 준다. 명 령은 그것의 연산수들이 모두 계산될 때 까지 대기하여 야 한다. 표준란은 평 
균병렬성을 보여 주며 를파일러최량화에 의해 쉽게 제거될수 있는 그것의 의존성들4 
무시 한다. 

없음 란은 모든 의존성들을 무시하는바 그것은 리상화된 경우이다. 
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6 개 프로그람에서 순환고리병렬성 

기 억 기 요구 (MB) 

락도 | 배정확도 


례 3.17. 3개 STAP 성능평가기준프로그람의 성능 

. 3-23 은 STAP 성능평 가기준에서 3개 프로그람의 어떤 성능척도를 보여 - 
대 그리 고 정 규자료모임 들을 리용한다. 

력자료크기 와 작업 부하는 STAP 성 능평 가기 준명세서 에 의해 주어 진다 [101 
대병 렬성 은 개 별적단계 에서 최대 인 DOPs 를 찾아 간단히 계산한다. 림계7 
f 한히 많은 마디 들이 리 용될 때 의 실행 시 간이 다. 간단히 고찰하기 위해 c 
산은 동일한 시 간이 걸 린 다고 가정 하자. 

러면 매 단계의 림계경 로는 그것의 작업부하를 DOP 로 나눈것 이 다. 

균병 렬성 은 림 계길에 대 한 작업부하의 비률이다. 

례로 표 3-12 로부터 HO-PD 프로그람은 3개 단계 즉 Doppler 처리， Beamfc 
두표검 출을 가진다. 명 사자료모임 에 대 해 이 단계 들은 각각 49152, 256 그 
P 를 가진다. 

대병 렬 성 은 max(49152, 256, 256)=49152 로 계 산된 다. 

표 3-23 3개의 STAP 성능평가기준프로그람의 성능 
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병 렬 HO-PD 프로그람의 림계경 로는 값 220/49152 +(12618+14)/ 256= 49.35Mflop 로 
계산된다. 

평 균병 렬 성 은 비률 12852/49.35=261 로 계 산된 다. 

우에서 보여 준 유효병렬성의 측정들은 지어 기본블로크경계들이 무시될 때에도 비 
수값계산이 상대적으로 작은 병렬성을 가진다는것을 보여 준다. 

기본블로크는 단일입력점과 단일출구점을 가진 렬 혹은 명령블로크이다. 콤파일러최 
량화와 알고리 듬재 설계 는 응용프로그람에 서 유효병 렬성 을 증가시 킬수 있다. 병 렬성추출 
을 기본블로크로 제 한하는것은 보통 프로그람에서 가능한 ILP 를 약 2~5 의 인수로 제 한하 
기 위해서이다. 

그러나 DOP 는 다중처리기들이 기본블로크들의 경계를 넘어 서 병렬성을 개발하기 
위해 동시 에 쓰일 때 수천개 의 과학코드로 넓 힐수 있다. 

3.6. 확대가능성과 속도증가해석 

이 절에서 우리는 병렬를퓨터프로그람결합의 확대가능성을 해석하고 예측하기 위하 
여 앞절들에서 전개한 척도를 어떻게 리용하는가를 고찰한다. 

우리 는 세 가지 속도증가척 도에 기 초한 세 가지 성 능모형 을 도입 한다. 그다음 확대 가 
능성해석 에 대 한 3 가지 방법 을 고찰하는데 그것들은 각각 상수효률，상수속도 그리 고 상 
수리용에 기초한다. 

3. 6. 1 . Amdahl 의 법칙: 고정된 문제크기 

실시 간응답을 요구하는 많은 실천적 응용프로그람들에 서 계 산적 작업 부하，는 자주 
고정된다. 

처리기수가 병렬콤퓨터에서 증가하는데 따라 고정된 작업부하를 병렬실행하기 위해 
더 많은 처리기들에 분배한다. 

그러므로 주요목적은 가능한껏 빨리 결과를 생성하는것 이 다. 

고정된 작업부하，를 가진 문제를 고찰하자. 

작업부하，를 두개 부분 즉로 나눌수 있다고 가정 하자. 여기서 
，의 a 퍼 센트는 순차적 으로 실 행 되 여 야 하며 나머 지 1- ^퍼 센트는 w 개 마디 들에 의 해 
동시에 실행될수 있다. 

모든 부가처 리 들이 무시 된 다고 가정 하면 고정부하속도증가는 «나 oo 일 때 
w n 1 

S „= - = - > 一 asn — > oo (3.14) 

aW + {\- a){W In ) l + (n-l)a a 


로 정 의한다. 

이 식을 Amdahl 의 법칙이라고 부르는데 병렬체계를 연구하는 가장 기본적인 법칙의 
하나이 다. 
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Amdahl 법칙은 다음과 같은 몇가지 의미를 가지고 있다. 

(1) 주어 진 작업 부하에 대 하여 최 대 속도증가는 1/상의 웃한계 를 가진 다. 다른 
말로 말하면 프로그람의 순차구성요소는 병목문제이다. 이 상는 프로그람의 
순차병목문제로서 알려 져 있다. ^가 증가할 때 속도증가는 비례적으로 감 
소한다. 

(2) 좋은 속도증가를 얻기 위 하여서는 순차병목문제 여를 가능한 작게 취 하는것 
이 중요하다. 

(3) 문제가 우에서 언급한 두가지 부분으로 이루어 질 때 보다 큰 부분이 더 빨 
리 실행되도록 하여야 한다. 


이 제 앞에 서 말한 모든 부가처 리 들을 Amdahl 법 칙 에 넣 자. 
식 (3.18) 에 서 고정 -부하속도증가 S n 은 « 우 oo 일 때 


公 n 


W 


aW + {\-a){W!n) + T 0 


l + (n-l)a + — a + — 
W W 


(3.15) 


로 된 다. 

이 확장된 Amdahl 법 칙 은 순차병 목문제 를 감소시 킬 뿐아니 라 부가처 리 의 상반되 는 
영 향을 줄이 기 위하여 평 균립도를 증가시켜 야 한다는것 을 말하여 준다. 다른 말로 병 
렬프로그람의 성능은 순차병목문제 에 의해 제 한될뿐아니 라 평 균부가처 리 에 의 해서도 
제 한된 다. 


실례 3.18. 병렬 APT 실행의 속도중가에 대한 웃한계 

그림 3-8 에 있는 병렬 APT 프로그람을 고찰하자. 

모든 부가처 리 를 무시하는 (1)4 모든 부가처 리 들이 r 0 (oo) 우 r 0 (256) 이 라고 가정 하 
는 (2) 에 의 해 속도증가에 관한 Amdahl 웃한계 를 평 가하자. 

(1) 모든 부가처리들이 무시될 때 작업부하는 W 느 14.375 와 같다. 련속구성요소는 
HT 단계 이 며 그것 은 a = 0.04/13.7 = 0.278% 이 다. Amdahl 법 칙 에 의 해 속도증가 
는 1 /a = 359 로 웃한계 를 가전다. 표 3-23 에 서 178 의 평 균병 렬 성 이 Amdahl 의 
법칙보다 더 엄격한 웃한계를 준다는것을 주목한다. 이 속도증가에 대한 엄격 
한 제한은 마디의 수를 증가시켜서는 극복할수 없다. 

(2) 식 (3.12) 로부터 r 0 (256) = 0.0479 s 이 다. 평 균부가처 리 는 r 0 (oo)/W = 0.0479 

/14.37 = 0.00333 이다. 식 (3.15) 에 의 해 속도증가는 엄격 한 웃한계 값 
1/(0.00278+0.00333)=163 를 가진다. 
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고정부하속도증가는 순차병목문제 a 와 평균부가처 리 가 증가하는데 따라 떨어 진다. 

순차병목문제는 바로 체계에서 처리기수를 증가시켜서는 해결할수 없다. 이 성질은 
과거 20년이상 병렬처 리에 대한 비관적 인 관점으로 되였다. 

Amdahl 법 칙 에서 주요한 가정 은 문제 크기(작업부하)가 고정 되 고 기 계 크기 가 증가하는 
데 따라 문제크기를 유효한 계산능력 에 맞게(비 례적 으로) 확대할수 없다는것 이 다. 이것은 
종종 큰 규모의 체계가 작은 문제를 푸는데 리용될 때 리득감소로 이끌어 간다. 

다음절에서 이 문제에 대한 해결을 고찰한다. 

3. 6. 2. Gustafson 의 법칙: 고정된 시간 

순차병 목문제 는 고정 문제크기제 한을 제 거 함으로써 완화시 킬 수 있다. John 
Gustafson (1988) 은 기 계 크기 가 증가하는데 따라 문제 크기 를 확대 함으로써 개 선된 속도증 
가를 얻 는 고정 시 간개 념 을 제 기하였 다. 

더 높은 정확성을 위한 확대화 최소일감처리시간이상의 정확성을 강조하는 많은 응 
용프로그람들이 있다. 

큰 계산능력을 얻기 위해 기계를 크게 하는데 따라 보다 정확한 풀이를 생성하고 적 
은 실행 시 간을 변화시키 지 않으면서 보다 큰 작업 부하를 얻 기 위하여 문제 크기 를 증가시 
키려고 할수 있다. 

대 표적 인 실 례 들로는 구조해 석 을 진 행하는 유한요소법 리용 혹은 날씨 예 보에 서 계 산 
론적액 체 동력학문제 를 푸는 유한미 분법 리용을 들수 있 다. 품질 이 낮은 격 자는 거 의 계 산 
을 요구하지 않지만 품질이 높은 격 자는 보다 많은 계산을 요구하며 보다 큰 정확성을 
요구하게 된다. 

날씨예보모의는 종종 4차원 PDEs 의 풀이를 요구한다. 

매 물리 차원 (X， Y, Z ) 에 서 10개 의 인수로 격 자공간을 축소하고 같은 크기 로 시 간단 
계 를 증가시키 면 격 자점 은 1000배 이 상 증가한다. 

따라서 작업부하는 적어도 1000배로 더 크게 증가한다. 

그러한 문제 를 확대하면 물론 갈은 실행시 간에 더 큰 계산력 을 요구한다. 

기 본동기 는 배 수를 절 약하는데 있는것 이 아니 라 보다 정 확한 날씨 예 보를 얻는데 있 
다. 정 확성 을 위한 이 문제확대 화는 Gustefson 에 게 고정시 간속도증가모형 을 전개시 킬 동 
기를 주었다. 

이 확대된 문제는 모든 증가된 자원들이 작업하도록 하며 보다 좋은 체계리용을 가 
져다 준다. 

고정시 간속도중가 정 확성-림 계응용에서 우리는 보다 작은 기계 에서 작은 문제 를 푸 
는데 걸 리는 실행시 간을 가지 고 대형기 계 에서 가능한 가장 큰 문제를 풀려 고 한다. 

기 계크기 가 증가할 때 작업 부하 역 시 증가한다. 

원 래문제 가 작업 부하，를 가진 다고 하자. 

그 가운데서 a 퍼센트는 순차적이며 1- a 퍼센트는 병렬로 실행될수 있다. 
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단일마디기계에서 실행시간은，이다. 

„마디기계에서 작업부하를 w "=( 기 v + ( l - a ) n ， 로 확대한다. «마디들에서 병렬실행 
시간은 여전히 W 이다. 그러나 확대된 작업부하를 실행 하는 순차 시간은 
W'=aW + (l-a)nW 이 다. 

확대된 작업부하를 가진 고정시간속도증가는 다음과 갈다. 


확대된 작업부하에 대한 순차시간 
= 확대된 작업부하에 대한 병렬시간 

aW + (l-a)nW 、 

=--- = a + ( l - a)n 


(3.16) 


이식은 Gustafson 법칙으로 알려 져 있으며 작업부하가 고정실행시간을 유지하기 위 
해 확대 되 면 고정 시 간속도증가는 «의 선형 함수이 다. 

문제 를 유효한 계 산능력 에 맞게 확대할수 있을 때 순차부분도 더 는 병 목문제 가 아니 다. 
Gustafson 법 칙 이 성 립 하기 위 해서는 (1- a )， 에서 로 작업부하의 병 렬가능 

한 부분만을 확대하는것 이 중요하다. 

순차부분 ClW 는 그대 로 둔다. 


확대된 속도중가 이제 Gustafson 법칙에 모든 부가처리를 넣으면 확대된 속도증가는 

^ , _ aW + (l-a)nW _a + {\-a) n 내 

「 W+T 0 l + T 0 /W ''」、 

확대된 작업부하 를 가진 병 렬프로그람은 원래 작업 부하，에 

대 한 순차시 간과 같은 고정계산시 간을 가진다는것 에 주목한다. 

병렬프로그람에 대한 전체 실행시간은 또한 부가처리 r Q 을 포함한다. 이 부가처리 
7^은 «의 함수이다. 

실례 3.14 로부터 r Q 은 증가，감소하는 혹은 n 에 관하여 상수인 성 분을 가지 고 있다 
는것을 알수 있 다. 

일반화된 Gustafson 법칙은 부가처 리를 «에 관하여 감소하는 함수로 조종함으로써 선 
형인 속도증가를 얻을수 있다. 그러나 이것은 흔히 어렵다. 

실례 3.19. APT 에서 부가처 리고찰이 없는 확대된 속도중가 

그림 3-8 에 있는 병 렬 APT 프로그람을 고찰하자. 문제 파라메 터 는 iV =256 이 다. 
작업부하는 W = 0.01 IN 2 + 2.SN + 2.88 Mflop 혹은 임의의 尺에 대하여 

， = 0.000 16尺 2 +0.0 15尺 + 0.04 s 로 근사화될 수 있 다. 

八느256에 대하여，= 147 Mflop 혹은 14.37 s 이다. 

128개 마디 들이 리용되 고 모든 부가처 리 들이 무시된다고 가정할 때 고정시 간속도증 
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가를 평 가하자. 

또한 확대된 작업부하에서 실행 되 는데 얼마만한 Mflop 가 필요한가를 지적하자. 

모든 부가처 리 가 무시 될 때 순차실 행시 간은 ，=14.37 s 이 다. 본질 적 으로 순차 HT 단계 
는 전체 작업부하의 a =0.04/14.37=0.27%로 본다. 

식 (3.17) 로부터 확대된 속도증가는 다음과 같 다. 

S„=a + ( l - a)n = 0.00278 + 0.99722 n = 127.65 

확대된 작업부하에 대 한 순차시 간은 a ，+ (1- a ) 시 V = 127.65 x 14.37 = 1834에 다. 

달리 말하여 시간작업부하는 1834/14.37=127.65 배로 확대된다. 

이 값을 AM 1 대 하여 푸는 시 간작업 부하표현 에 대 입할수 있 다. 


0.00016尺 2 + 0.015 尺 + 0.04 = 1834 


그러면 Afc 3339 이 다. 

따라서 斤은 3339/256배로 확대된다. 

이 제 이 값을 flop 작업 부하표현 에 대 입하면 다음과 같다. 

W = 0.01 IN 2 + 2公 N + 2.88 = 131996 


즉 131996 Mflops 가 확대된 작업부하에서 수행되는데 필요하다. Flop 작업부하는 
131996/1447=91배로 확대 되였다. 

문제크기 에 대 한 주의 문제크기의 정의를 명백하게 하여 야 한다. 

우의 실례 는 3개의 서 로 다른 정의 즉 문제파라메터 N , 작업 부하 혹은 시 간(초)을 
보여 준다. 

이 정 의 들은 문제 를 확대하는데 서 중요한 차이 로 된 다. 시 간작업 부하가 127배 확대 
되 면 flop 작업 부하는 91배 확대 된 다. 문제 파라메터 N 는 13배 확대 된 다. 

실례 3.20. 병렬 APT 에서 모든 부가처리를 포함하는 확대된 속도중가 

실 례 3.19 를 반복하되 모든 부가처 리 들을 고찰할 때 128개마디 들에 서 확대 된 속도증 
가를 평 가하자. 

전체 교환단계 에서 통보문길이는 m = 256尺 2 / n byte 라고 가정하자. 방송과 감소단계 
에 대 한 통신부가처 리는 iV 에 따라 변하지 않는다. 식 (3.17) 로부터 확대된 속도증가는 다 
음과 같이 얻어 진다. 

s ，_a + (l-a)n_ 0.00278+ 0.99722 n _ 127.65 

n _ — 1 + A 0 — _ l + T 0 /W _ l + r 0 /14.37 
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TO 을 구하자. 앞의 실례에서 이미 확대된 문제에 대하여 Afc3339 라는것을 엄었다. 전 
체 교환단계 에 서 통보문길 이 는 m = 256 N 2 /n byte=2854/nMB 이 다. 

식 (3.10) 으로부터 전체교환에 대 한 부가처 리 는 

T index = 801ogn + 0.03n 129 /J. s = 0.000081ogn + 85.62n _0 . 71 s. 

전체 부가처리는 

T 0 = T index + T bcast + T reduce = 85.62 지 _ 0J1 + 0.004451ogn + 0.0023. 

ra=128 에 대하여 r 0 은 2.7s 로 평가된다. 

확대된 평균부가처리는 r 0 /W = 2.57/14.37 = 0.1914 이다. 

식 (3.17) 로부터 확대된 속도증가는 127.65/1. 1914=107 인데 부가처리가 무시될 때 얻 
어 진 127.65 속도증가보다 작다. 

3. 6. 3. Sun 과 세 의 법칙 : 기억기속박 

Xian-He Sun 과 Lionel Ni(1993) 은 CPU 와 기억기용량의 리 용을 최대화하기 위 하여 
Amdahl 법 칙 과 Gustafson 법 칙 을 일 반화하는 기 억 기 속박속도증가모형 을 전개 하였 다. 

그 방법 은 가능한 가장 큰 문제 를 푸는것 인데 기 억 공간에 의해 제 한된 다. 이 것 역 시 
더 높은 속도증가，더 높은 정 확성 그리 고 보다 좋은 리용을 제 공하는 확대 된 작업 부하 
를 요구한다. 

기 억기속박문제 대규모과학 혹은 공학계산들은 흔히 큰 기 억공간을 요구한다. 사실 
상 병 렬 콤퓨터 에 서 CPU 속박 혹은 I/O 속박보다는 오히 려 기 억 기 속박을 많이 리용한다. 

이것은 특히 분산기억기를 리용하는 다중콤퓨터체계에서 더욱 그러하다. 매 마디에 
불은 국부기 억은 상대적으로 작다. 그러므로 매 마디는 작은 부분문제만을 조종할수 있 
다. 많은 수의 마디들이 단일한 큰 문제를 풀기 위해 집체적으로 리용될 때 전체 기억용 
량은 비례적으로 증가한다. 

이것은 자료모임의 령역분해를 통해 체계가 확대된 문제를 풀수 있게 한다. 실행시간 
을 고정시키는것 대신에 문제크기를 더욱 확대함으로써 모든 증가된 기억을 리용할수 있 
을것 이 다. 기 억기 속박모형 은 이 원리 밑 에서 전개 되 였 다. 

이 방법은 가능한 가장 큰 문제를 푸는것인데 유효기억용량에 의해서만 제한된다. 


실 례 3.21. APT 성 능평 가기 준프로그람의 기 억 기 요구 

표 3-24 는 3개의 STA 성능평가기준프로그람의 기억요구를 보여 준다. 입력점들은 계 
산에 필요한 기 억기요구만을 보여 준다. 

MPPs 에서 두배 나 많은 기 억기 가 요구될수 있는데 그것은 통신완충기 에서 필요하기 
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때문이 다. 

표 3-24 STAP 성능평가기준의 프로그람의 기억요구 


프로그람 

기 억 기요구 (MB) 

작업부하 

단순정확도 

배 정 확 __ 

(Mflop) 

APT(min) 

0.23 

0.46 

5 

API(norm) 

18.35 

36.71 

1446 

APT(max) 

3276.80 

6553.60 

12,100,000 

HO(min) 

0.15 

0.30 

21 

HO(norm) 

50.33 

100.66 

12,852 

HO(max) 

3276.80 

6553.60 

33,263,288 

GEN(min) 

0.26 

0.52 

6 

GEN(norm) 

100 

200 

5326 

GEN(max) 

33,957 

67,914 

4,604,011 


최 대 자료모임 이 리 용될 때 10 Gflops / MPP 는 1210 s 동안에 APT 를 처 리 할수 있고 3326 s 동 
안에 FO - PD 를 처 리 할수 있 으며 460 s 동안에 GEN 을 처 리 할수 있 다. 

대응하는 기억기요구는 13 GB 만큼 크다. 

많은 현대 처리기들은 매개가 약 100 Mflop/s 를 처리할수 있다. 

STAP 의 기 억기요구를 만족시키기 위 하여 10 Gflop/s 혹은 100마디, MPP 는 마디 당 
130 MB 기 억을 요구한다. 

그러한 기 억 기 용량은 초고속콤퓨터 에서만 존재한다. 현재 설 치된 대 부분의 MPPs 는 
처 리기당 128 MB 이 하의 기 억기를 가지고 있다. 

기억기속박속도중가 다중콤퓨터에서 전체 기억기용량은 유한개의 마디수에 따라 선 
형 으로 증가한다. M 을 단일마디의 기 억기용량이라고 하자. «_마디 MPP 에서 전체 기 억기 
용량은 nM 이다. 

기 억기 속박문제 가 주어 지 면 한개 마디 에 서 모든 기 억 기 용량 M 을 리용하여，초에 
실 행 한다고 가정 하자(실 례 로 순차계 산론적작업 부하는，이 다.). 보통 작업 부하는 본질 적으 
로 순차부분과 병 렬가능성 부분을 가진 다. 즉 

W=aW + (l-a)W 

n 개 마디들이 리용될 때 보다 큰 문제 들은 증가된 기 억기용량 nM 에 의해 풀수 있다. 
작업 부하의 병 렬부분이 G ( n ) 배 로 확대 될수 있 다고 가정 하자. 즉 확대 된 작업 부하는 
，= a ，+ ( l - a ) G ( n )， 이다. 인자 G ( n ) 은 기억용량이 w 배로 증가하는데 따르는 작업부 
하증가를 반영한다. 
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기 억 기 속박속도증가는 다음과 같다. 

확대된 작업 부하에 대 한 순차시 간 
확대된 작업부하에 대한 병렬시간 
_ aW + ( l - a ) G ( n)W _ « + (l-«)G(n) 

~ aW + ( l - a ) G ( n ) W / n ~ a + ( l - a ) G ( n)/n 


순차시 간은 nM 기 억 용량을 가진 가상마디 를 리용하면 얻 어 진다. 
모든 부가처 리 가 고찰될 때 속도증가는 다음과 갈다. 


5 ._ aW + ( l - a ) G ( n)W _ a + ( l - a ) G ( n ) 
n ~aW + (\- a ) G ( n ) W/n + T 0 ~a + (\- a ) G ( n)/n + T 0 /W ' 


식 (3.19) 에는 다음과 갈은 세가지 특수경우가 있다. 

(1) G(n) = l. 이것은 문제의 크기가 고정된 경우에 대응된다. 따라서 기억기속박 
속도증가는 Amdahl 의 법 칙과 같다. 즉 식 (3.19) 과 식 (3.15) 는 고정작업부하 
가 주어 졌을 때 등가이다. 

(2) G ( n ) = n . 이것은 기억기가 «배 증가될 때 작업부하가 n 배 증가하는 경우에 
적 용된다. 따라서 식 (3.19) 는 고정실행시 간을 가진 식 (3.17) 의 Gustafson 법 칙 
파 동일하다. 

(3) G ( n )> n . 이 것은 계산론적작업부하가 기 억기요구보다 더 빨리 증가하는 경 
우에 대응된다. 따라서 기 억기속박모형 (3.19) 는 고정부하속도증가식 (3.15) 와 
고정시 간속도증가식 (3.17) 의 두개보다 더 높은 속도증가를 보여 준다. 


실례 3.22. 병렬 APT 의 세가지 속도중가인자비교 

병렬 APT 프로그람(그림 3-18) 이 «마디다중콤퓨터에서 실행된다고 가정하자. 여기서 
매 마디는 64MB 기억을 가진다. "에 관한 속도증가의 세가지 형태를 도표로 작성하고 모 
든 통신부가처 리를 고찰한다. 

APT 프로그람은 다음과 같은 추가적 인 특징을 가진다. 


• 작업부하는 식 

W=0.01 liV 2 +2.8^V+2.88Mflop 
W 는 0.00016 尺 2 +0.015iV+0.04S 

과 같이 문제 파라메 터 AM ᅵ 따라 변한다. "=256 이 면 WM447Mflop 혹은 14.37s 이 다. 

• 기 억 요구는 512八라) yte 이 다. 

• 방송부가처리 ，와 감소부가처리 T reduce 는 작업부하가 확대됨에 따라 변하지 
않는다. 그것 들은 기 계 크기 n 에만 의 존한다. 

• 전체 교환부가처 리 T iodex 는 작업부하가 확대되는데 따라 다음과 갈은 률로 증가 
한다. 
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T index = 80 log n + 0.03 n 129 m , m = 256( 八" n ) 2 bytes (3.20) 

고정작업부하속도중가 

실 례 3.18 로부 터 고정 작 업 부하는 시 간에 의 하여 W 느 14.37 s 이 다. 순 차부분은 
a =0.00278 이다. 

식 (3.12) 로부터 전체 작업부하는 다음과 갈다. 

r 0 = 0.5«-°' 71 +0.00445 log n +0.0023 

식 (3.15) 로부터 고정부하속도증가는 다 음과 갈다. 

s 1 

1-a T 0 
a + -+ —— 


n nno ^ c 0.99722 0.5 n ~ on + 0.004451 ogn + 0.0023 
U.UUZ/oH - 1 - 


고정 시 간속도중가 

원래 작업부하는 여전히 W =14.37 s 이 다. 확대된 작업부하는« ^+(1- «>1，이 다. 확대 
된 작업부하에 대 응하는 "은 다음의 식 을 풀어 엄 는다. 

0.00016 尺 2 + 0.015尺 + 0.04 = a + (l-a)nW 
0.00016N 2 + 0.015 尺 + 0.04 = (000028 + 0.997 n)x 14.37 


즉 N = -46.875 + V 2197 + 8962 n 이 다. 

식 (3.12), 식 (3.20) 와 〜값으로부터 전체 부가처 리는 다음과 같다. 


T 0 = (0.03 • 10 _ 6 256 • (- 47 + V 2197 + 8962 nf jn 니 


식 (3.17) 로부터 고정시 간속도증가는 다음과 같다. 

5 , _a + (\-a)n _ 0.00278 + 0.99722 ra 
n ~ l + T 0 /W 一 l + r 0 /14.37 一 


(3.22) 


고정기억속도중가 

n 마디체계에 총체적으로 64 nMB 기억기가 있다. 

이 큰 기 억 기 에 적 재할수 있 는 가장 큰 문제크기 N 은 다음과같다. 
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512 A " = 64 nxl 0 6 => 尺 = 64nxl ° 6 = 353 . 55 ^ (3.23) 

V 512 

확대된 작업부하는 

W * = 0.00016 尺 2 + 0.015 尺 + 0.04 

= 20 n + 53yfn + 0.04 = aW + (l-a)G(n)W 

이다. 

公 =0.00278, W =14.37 로부터 G («)=1.4 n +0.37 ‘ 이 다. 

식 (3.12)，식 (3.20)，식 (3.23) 으로부터 전체 부가처 리는 

W * = 0.00016 尺 2 + 0.015 尺 + 0.04 

= 20n + 5.3Vn + 0.04 = aW+ (l-a)G(n)W 
식 (3.19) 로부터 고정기억속도증가는 

T 0 = 0.03 x 10 _6 x 256 x (353.55 Vn ) 2 n _0 ' 71 + 0.004451 ogn + 0.0023 
+ 0.96 지 029 + 0.00445 log n + 0.0023 

세 가지 속도증가모형인 식 (3.21)，식 (3.22)，식 (3.24) 를 그림 3_9에 서 작게 구분 
하였 다. _ 

G ( n )=1.4«+0.37 在 > n 이 기 때 문에 고정 기 억 속도증가는 고정 시 간과 고정 작업 부하속도증 
가보다 더 좋다. 

속도중가법 칙의 개괄 목적은 고정작업부하문제의 실행시 간을 줄이는것 이 라면 체계 
의 확대 가능성 은 고정 부하속도증가로 정 의 될 수 있 으며 일 반화될 수 있 다. 

그러 나 병 렬 체 계 는 문제크기(작업 부하)를 기 계크기 에 따라 Amdahl 법 칙[식 (3.15)] 에 
의해 결정된다. 

가장 좋은 확대 된 속도증가를 얻 기 위 하여 서 는 Sun 과 Ni 법 칙[식 (3.19)] 에 의해 결 정 
되는 기 억기속박확대를 리용하여 야 한다. 

문제를 확대하는것은 보다 큰 기계크기가 쓰인다고 해도 더 큰 실행시간을 요구할수 
있 다. 고정 부하와 고정 기 억 확대 사이 중간물은 Gustafson 의 고정 기 억 확대 (식 (3.17)) 인데 어 
떤 부가처 리 를 제 외 하고 원 래작업 부하의 순차실 행 시 간을 초과하지 않을 확대 된 작업 부하 
의 병렬실행시간을 담보한다. 

모든 경우에 도달가능한 속도증가는 순차병목문제 a 와 평균부가처 리 7\)/，에 의 해 
제한된다. 여기서 T 0 은 확대된 작업부하에 대한 병렬프로그람의 전체 부가처리이고，는 

원래 작업부하이다(즉 확대되지 않은). 

순차병목문제 a 는 특히 고정부하리용에 대 해 중요하다. 
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3. 6. 4. 성능고정모령 

몇 가지 보충적 인 척 도를 확대 가능성 을 특징 짓 기 위해 정 의한다. 그가운데 서 3가지 를 
아래에서 토론한다. 효률성，처리기당속도，리용성을 각각 그대로 유지하면서 병렬체계가 
얼마나 잘 확대되 는가를 특징 지 으려 고 한다. 이 절에서 체계 라는 용어 는 리용(작업부하) 
과 병 렬콤퓨터 가동환경을 포함하는 쌍을 가리킨다. 큰 체 계를 리용하는것은 품이 많이 
든다. 세가지 척도는 먼저 작은 체계에서 확대가능성함수를 유도한 다음 그것을 큰 체계 
에서 의 성 능예 측에 리용하도록 한다. 

효률성 고정 Grama 등은 [278] 체 계 의 확대 가능성 을 특징 짓 는 효률성 고정 척 도를 제 기 
하였다. 

체계의 효률성은 작업부하，와 기계크기 n 즉 E^f(W, n ) 의 함수로서 표현할수 있다. 
효률성 을 어 떤 상수(실 례 로 50%)로 고정 하고 작업 부하，에 대 한 효률성방정 식 을 푼다면 
결과함수를 체 계의 효률성고정 함수라고 부론다. 

효률성고정 이 작으면 작을수록 작업부하는 같은 효률성을 보장하면서 기계크기증가 
에 관계 있는 증가를 더 적게 요구하며 따라서 체계의 확대가능성이 더 좋게 된다. 


실례 3.23. 두개의 행렬곱하기도식 

두개 행 렬 곱하기 도식 A ， B 가 주어 지 면 둘 다 같은 수의 처 리소자를 가진 다. 병 렬 실 
행 시간과 이 체 계 들의 효률성 을 표 3-25 에 제 시한다. 

두개 AWV 행렬들을 곱한 순차시간은 약 T l= cN 3 효률성은 及 = 八/(«7„) 으로 정 

의된다는것에 주목한다. 
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표 3-25 _ 두개의 행렬급하기도식의 병렬시간과 효률성 


도식 

병렬실행시간 T n 

효률성 E 

A 

cN 3 ln + bN 2 l4; 

E{A) = -1- 

l + (byfn)/(cN) 

公 

2cN 3 /n+bN 2 /(2^) 

E(B) = -^- 

2 + (by/n)/(2cN) 


두개의 병 렬시 간표현에서 첫번째 항은 계산시간을 가리 키 고 두번째 항은 통신부가처 
리 를 가리킨다. 두 체 계 사이차이 는 체 계 B 는 계 산시간을 두배 로 한것 으로 하여 체 계 A 의 
부가처리를 절반만 가진다. 

£=1/3과 £=1/4일 때 어 느 체 계 가 더 확대 가능한가를 보자. 

(1) A 改"행 렬곱하기문제 의 작업 부하는 근사하게，= 서 3 이 다. 체 계 A 에 대 하여 

£=1/3 은 )KcN):2 이 라 는 것 을 의 미 하 며 따 라 서 효 률 성 고 정 함 수 는 

，( A ) = ( fe /2 c )) 3 n 15 이 다. 류사하게 체 계 公에 대 하여 효률성 고정 함수는 
， ( 쑈너必/요비느니로 계산된다. 따라서 효률성고정에 의해 두 체계들은 똑 
같이 확대가능하다. 

(2) 체 계 A 에 대 하여 £=1/4 는 必 ^)/(cA0=3 이 라는것 을 의 미하며 따라서 효률성 고 
정함수는 竹义 4)= 必 /(3 功 3 « 15 이다. 류사하게 체계 B 에 대하여 효률성고정함수는 
， (A) = (fe/4c)) 3 n L5 이 다. 따라서 체 계 B 는 보다 작은 효률성 고정 을 가지며 
체계 A 보다 더 확대가능하다. 

효률성 고정척 도는 기 계크기 가 증가하는데 따라 요구되 는 작업 부하증가률을 예 측하기 
위한 쓸모 있는 도구를 제 공한다. 실례 로 실례 3.23 에서 효률성 고정 함수들은 상수효률성 
을 유지 하기 위하여 기 계크기 를 두배 로 하면 작업 부하를 2.82 인 자로 증가시 킬 것 을 요구 
한다는것을 말하여 준다. 

그러 나 실 례 3.14 는 효률성 고정척 도를 주의깊게 사용하여 야 한다는것 을 보여 준다. 
효률성 고정 에 의해 더 확대 가능한 체 계는 반드시 더 빨리 동작되지 않는다. 

속도고정 Sun and Rover[394] 는 체 계 확대 가능성 을 특징 짓 기 위 해 속도고정 개 념 을 제 
기하였다. 

기본개념은 효률성고정과 류사하다. 상수효률성을 유지하는 대신에 기계크기와 문제 
크기 두개 를 동시 에 확대하면서 속도를 보존할수 있 다. 

러 용고정 리 상적 인 확대 가능성척 도는 다음과 갈은 두가지 성 질을 가져 야 한다. 

(1) 효률성 고정 혹은 속도고정 과 같이 그것 은 기 계크기 증가에 따라 요구되 는 작 
업부하증가률을 예측한다. 
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(2) 그것은 실행시간과 일치한다. 즉 더 확대가능한 체계는 언제나 보다 짧은 실 
행 시간을 가진 다. 그러한 성 질 들을 가진 단일 확대 가능한 척 도가 있는가? 대 답 
은 있 다는것 이 며 아래 에 서 설 명한다. 

정의 3.1 표 3-20 으로부터 병 렬체 계 리 용을 IMPr 八 n . P peak >W/(n . T . P peak ) 로 정의 한 
다는것 을 상기하자. 리용을 어 떤 상수(실 례 로 25%)로 고정 하고 작업 부하，에 대 한 리 용 
방정 식 을 풀면 결과함수를 체 계의 리용고정 함 수라고 부론다. 

효률성 고정 과 같이 리용고정척 도는 같은 리용을 유지 하면서 기 계크기증가에 관계하 
는 요구되 는 작업부하증가률을 예 측할수 있다. 작은 리용고정 을 가진 체 계는 큰 리용고 
정 을 가진 체 계보다 더 확대 가능하다. 

더우기 아주 합리 적 인 조건밑 에 서 보다 작은 리용고정(따라서 보다 확대 가능한)은 
언제나 보다 짧은 실행시간을 가진다는것을 보여 줄수 있다. 이 결과의 자세한 유도는 
련습으로 남긴다(문제 3.13). 

실례 3.24. 병 렬행 렬곱하기도식의 러 용고정 

실 례 3.23 을 다시 고찰하자. 체 계 A 의 리용은 

u- w - 서 3 

nT n (A)P peak n(、cN 3 ln + bN 2 l 具) p peak 

^(cP peak ) 

~ l + (byfn)/(cN) 

고정 리 용 에 대 하여 다음의 식 이 성 립 한다. 

byfn/(cN) = 3 => W ( A ) = (b/(3c)) 3 _ n 15 
류사하게 체 계 B 의 리 용은 

U = ^ 一 _신_ 

nT n (B) P peak n(2cN 3 /n + bN 2 /2yf^i)p peak 
\!{2cP peak ) 
l + (byfn)/(4cN) 

같은 고정리용 f /= l /(4 cP 찌)에 대 하여 
byfnl(AcN) = 1=> W ( S ) = [ fe /(4 c )] 3 ■ n h5 

MB )<，( A ) 로부터 체 계 B 가 더 확대 가능하다는것 을 알수 있 다. 
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실 례 3.25. 리용고정 에 대 한 확대 가능성 

실 례 3.14 로부터 6=4 c ， N >2 yfH 일 때 체 계 A 가 체 계 B 보다 더 빨리 동작한다는것 을 알 
수 있다. 이것을 체계 B 가 더 확대가능하다는 실례 3.24 의 결론과 어떻게 조화시키겠는가? 
즉 b =4 c ， N >2 일 때 체 계 A 의 리용은 다음과 같다. 

U _ l/(cP peak ) > 1 

~l + ( b ^)/( cN ) 3 cP peak 


역 시 체 계 B 에 대 한 같은 결론이 성 립한다. 이것은 실례 3.24 에서의 고정리용 
[/=1/( 쑈八교 ) 과 모순된 다. 이 제 가정 을 고정리용 U = U (4 cP peak )i 변환시키 자. 

체계 A 에 대하여 

byfn /(c a N ) = 1.4 =^ nW ( A ) = (b /(1.4c)) 3 • n 15 

체계 B 에 대하여 

byfn /(4 cN ) = 0.2 =>W ( B ) = 必 / (0.8c)) 3 • n 15 

그러 면 체 계 S 는 보다 작은 리용고정 을 가지 며 따라서 더 확대 가능하다. 

이 실례는 체계가 다른것보다 언제나 반드시 더 확대가능하지 않는다는것을 보여 준 
다. 그것 은 선택 된 리용수준에 의 존한다. 

우리는 리용값을 임의 로 선택할수 없다. 체계의 응용프로그람은 언제 나 100%보다 
작으며 흔히 그것보다 훨씬 작다. 

실례 3.28 에서의 두개 행렬곱하기체계에 대하여 체계 A 의 리용은 V ( cP peak ) 를 초과할 
수 없 으며 체 계 B 의 리용은 l/(2cP pe 긺를 초과할수 없 다. 

3.7. 참고문헌주해와 련습문제 

Bhuyan 와 Zhang 이 편집 한 지 도안 (tutorial) 은 다중처 리 소자성 능의 측정 과 평 가를 취 
급한다. 

Bell[6 刀은 사용자와 설계자의 전망으로부터 확대가능한 성능을 특징 지었다. Hockney 
의 문헌들과 관련문헌들 [313-318] 은 병렬성능척도에 대한 깊은 토론들을 포함하고 있다. 

Karp 와 관련문헌들은 [3 的- 364] 여 러 가지 병 렬 Fortran 변종을 비 교하고 병 렬 리 용성 능 
을 어 떻게 평 가하는가를 지적하였 다. 

여 러 가지 성 능척 도사이 의 관계 는 Sahni 와 Thanrantri 에 의해 토론되 였 다. 

Amdahl 법칙은 먼저 1967[29] 에 제기되였다. 

Gustafson[286] 은 보다 큰 체계가 쓰일 때 문제 크기를 확대함으로써 고정 실행 시간도 
달방법 을 제 기 하였 다. 




Gustafson 과 Snell 은 최 근에 확대 가능한 문제 크기 와 시 간인 HINT 라고 부르는 간단한 
성 능평 가기 준을 제 기하였 다. 

Sun 과 Ni [596] 은 기 억기 속박속도증가모형 을 전개하였 다. 

효률성고정 개념은 Kymar 와 관련문헌 [278,383,384] 에 의 해 전개 되였다. kospeed 개념 
은 Sun 과 관련 문헌 [594-595] 에 의 해 취 급되 였 다. 

실지 프로그람에서 유효병 렬성은 Blume 등 [92]， Wall [632]， Worley [65 이와 Hwang 과 
Xu [333] 에 의 해 해 석 된 다 . 확 대 가 능 한 성 능 법 칙 들 읔 역 시 Hwang [327], Almasi 와 
Gottlieb [26], Lenoski 와 Weber [406] 에서， NAS 성능평가기준결과들은 때때로 Bailey 와 관련문 
헌 [54, 525] 에 서 보고되 였 으며 Dongami [209] 에 의 해 LINPACK 성 능평 가기 준이 보고되 였 다. 

병 렬 체 계 성 능은 역 시 Lenoski 등의 [405, 406]， Agarwa 卜등의 [12], Stenstrom 등의 [585], 
Wang a Hwang [635], Athas 와 Seitz [45] 에 의 해 보고되 였 다. 

제 시된 STAP 실례들은 [655,656,65刀에서 보고된 Xu 와 Hwang 문헌에 기초하였다. 

우리 는 통신과 병 렬성 관리 에 서 부가처 리 를 평 가하는 량적 인 방법 을 전개 하였 다. 

이 결 과들은 병 렬 체 계 성능초기예 측에 적 용되 였 다. 

여 러 가지 성 능해 석 과 평 가도구는 역 시 [189,301，460,514,5 17564] 에 서 쓸모 있 다. 

문 제 

문제 3.1. 사용자에 게 쓸모 있는 콤퓨터 성 능을 검 사하는 GINPACK 를 리용한다. 기 계 
가 병 렬인가 아닌가는 중요하지 않다. 물론 병 렬성 능을 측정하는것 은 더 재 미 있을것 이 다. 

(1) 그것 의 R ^, AUx ， N m , /? peak 값을 찾으시 오. 

(2) 체계리용은 무엇 인가? 

(3) 최대성능/비용률은 얼마인가? 

(4) 지속성능/비용률은 얼마인가? 

문제 3.2. 사용자가 좋아 하는 를퓨터 를 검 사하는 STREAM 성 능평 가기 준을 리 용하여 
그것의 TRIAD 대 역너 비와 기계평형을 찾으시오. 얻 어 진 TRIAD 대 역너 비와 콤퓨터최대하 
드웨 어 기 억 기 대 역 너 비 를 비 교하시 오. 

문제 3.3. 지금 콤퓨터 가 계산 ( MIPS 와 Mflops )， 자료이동(기 억과 디스크， MB / s ), 체계 
호출，프로쎄 스관리，통신과 동기 화 등을 얼마나 잘 지 원하는가를 충분히 측정하는 포괄 
적인 마이크로성능평가기준은 없다. 

(1) 아주 쓸모 있고 도전적 인 클라스계 획 은 그러한 한조의 마이 크로성 능평 가기 준 
을 개 발하고 그것 들을 이 식 성 묶음에 통합하여 WWW 의 공동령역 에 넣 는것 이 다. 

(2) 클라스계 획성 능평 가기 준을 공동령 역성 능평 가기 준들 즉 LINPACK , STRAM , 
LMBENCH , TARKBENCH 와 비 교하시 오. 


문제 3.4. 실례 3.11 의 류형 에 따라 점대 점 통신지 연시 간을 측정하는 Ping - Pong 도식 을 
실현하기 위한 SPMD 프로그람을 쓰시 오. 
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문제 3.5. 집 중통신(실 례 로 전체 교환)시 간을 측정하는 방법 을 제 기하시 오. 그 방법 은 
3.4.3 절에서 토론한 방법들과 차이가 있다. 새로운 전체 교환알고리듬의 개요를 말하고 시 
간복잡성 과 완성효률성 의 견지 에 서 개 선된것 을 확인하시 오. 

문제 3.6. n 마디 SP2 에서 그림 3-8 에 있는 병렬 APT 알고리듬의 실행시간 '을 유도 
하시 오. « < 256 일 때 

T n = T comp+ T par+ T i nteaact 

= l^ + 0 .5n _a71 + 0.00445 log n + 0.0423 
n 

전체 작업부하는 SP2 마디에서 W=1447Mflop 혹은 14.37s 이 다. 

그림 3-8 에서 병 렬 APT 알고리 듬의 축소단계 에서 통신된 byte 수는 약 0.1MB 이 다. 

문제 3.7. 식 (1.4) 를 리용하여 1.5.2 절에 서 의 균형설계 에 대 한 50% 규칙 을 유도하시 오. 

(1) 매 부하불균형，출발시 간，통신대 역 너 비，병 렬성 부가처 리 인자들에 대 하여 부등 
식을 유도하시오. 

(2) 표 1.9 와 표 1.10 을 유도하시오. 

문제 3.8. 실 례 3.16 을 리용하여 다음질 문에 대 답하시 오 . 

(1) 기초프로그람은 흔히 수값프로그람보다 더 작은 병렬성을 가진다. Gcc 프로그 
탐이 왜 sgefu 프로그람보다 더 작은 평 균병 렬 성 을 가지 는가 하는 리유를 말 
하시 오. 

(2) 기 초프로그람을 더 효률적 으로 동작시 키 기 위하여 병 렬콤퓨터 의 성 능을 개 선 
하는 방도를 제 기하시 오. 구성 방식지 원，프로그람재 구조화，콤파일 러최 량화 
등과 같은 모든 면에서 잘 완성할수 있다. 

문제 3.9. 두개의 _행 렬들을 곱한 순차시 간은 약 7\= c 尺 3 이 다. 여기서 C 는 상수. 
병렬행렬곱하기도식은 «- 마디콤퓨터에서 병렬실행시간 ; T „= c 尺 3 / « + WV 2 / 士를 가진 
다. 여 기서 b 는 다른 상수이다. 

(1) 첫 번째 항은 계 산시간을 의 미 하고 두번째 항은 통신부가처 리 를 의 미한다. 

(2) 고정작업 부하속도증가를 찾고 결 과에 대 하여 해 설 하시 오. 

(3) 고정시 간속도증가를 찾고 결 과에 대 하여 해 설 하시 오. 

(4) 기억기속박속도증가를 찾고 결과에 대하여 해설하시오. 

문제 3.10. A, B 라고 부르는 콤퓨터 에 서 다음과 같은 응용프로그람실 행 시 간을 비 교 
하시 오. 응용프로그람은 8192 -점 FFT (고속푸리 예 변환)과 독립 인 2048 로 이 루어 진 
Doppler 처 리 이 다. 



사용자는 기 계 A 에서 50 s 의 실행시 간을 측정 하고 B 에서 는 30 s 를 측정한다고 가정 하 
자. 모든 부가처 리 시간을 무시한다. 

(1) 분당 수행되는 FFT 수로서 기 계 B 의 속도는 얼마인가? B 는 A 에 대해 얼마나 
빠른가? 

(2) 이 제 사용자가 화상실 감묘사를 수행하는것 이 필 요하다고 가정 하자. 사용자가 
두 기계에서 실감묘사코드를 실행하는데 기계 A 는 화상프렘을 실감묘사하는 
데 6분 필요하고 기계 B 는 10분 필요하다고 한다. 전형적인 작업부하혼합은 
매 화상실감묘사에 대 하여 40도플러처 리리 용이 다. 두 기 계 에서 실행시 간은 
얼마인가? 어느 기계가 더 빠르며 얼마나 더 빠른가? 

(3) 작업 부하혼합을 매 화상실 감묘사에 대 하여 10도플러처 리응용으로 변화시 킬 
때 (2) 부분을 반복하시오. 

문제 3.11. 작업 부하 W^l, 령순차병 목 (a = 0) 을 가진 프로그람을 고찰하자. 다음과 
같은 매 부가처 리 가정 에 대 하여 식 (3.17) 에 서 의 고정 시 간속도증가인자 을 평 가하시 오. 

(1) 부가처 리 r 0 = o (« 05 ) 에 대 한 확대된 속도증가의 big - O 표현은 무엇 인가? 

(2) 병 렬 계 산리 용에 서 superlinear 인 속도증가를 가지 는 가능한 리 유는 무엇 인 가? 

(3) 부가처리 凡=0(1맹버에 대해 (1) 부분을 반복하고 결과를 해석하시오. 

(4) 부가처 리가 상수보다 크면 선형속도증가를 얻는것 이 가능하다. 

문제 3.12. 실 례 3.22 를 리용하여 다음질 문에 대 답하시 오. 

(1) 고정효률성 1/5을 가정 하고 SP 2 에 서 동작하는 병 렬 APT 성 능평 가기 준의 리용 
고정함수를 유도하시 오. 

(2) 고정효률성 1/10을 가정 하고 SP 2 에 서 동작하는 병 렬 APT 성 능평 가기 준의 리용 
고정함수를 유도하시 오. 

문제 3.13. 두개의 처리기 A , 요가 주어 지고 그것들의 리용고정함수를 각각 W ( A ), 
，(公)라고 하자. 

위한 필요충분조건을 유도하시오. 즉 보다 확대 

된 체계가 더 빠르다. 

문제 3.14. 이 문제는 Sahni 과 Thanvantri 문헌에 기초한다 [524]. 실례 3.23 에서의 두개 
행 렬 곱하기 도식 을 고찰하자. 고정효률성 £=0.25 를 가정 하고 체 계 B 는 체 계 A 보다 효률성 
고정척 도에 의 해 더 확대 가능하다. 모든 값 b, c >0 에 대 하여 노 4 c 로 가정 한다. 
W ( A )=1.33 3 n 15 , W(B)^n h5 

(1) 우와 같은 조건에 서 B 는 A 에 비 해 얼마나 더 확대 가능한가? 

(2) 표 3-25 에서 병 렬실행시 간을 보시 오. 사>2^일 때 비 률 (2) r „/ r „( i ) 에 대 한 
식을 유도하시오. 

(3) 체 계 B 는 체 계 A 보다 더 느릴 수 있 는가? 그 리유를 설 명 하시 오. 
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제 2 편. 5ᅥ 용 기 술 


이 편은 4개 장으로 이루어 져 있다. 4, 5, 6장은 처리기, 기억기 그리고 호상접속기 
술들에 대 하여 서 술하고 7장은 병 렬성，호상작용 그리 고 통신에 대 한 쏘 프트웨 어 지원에 
대해 서술한다. 

4장에서 는 구성 방식, 기술과 상품화된 극소형처 러 기들의 응용들을 소개 한다. 하드웨 
어 와 쏘프트웨 어개 발추세 에 대 한 개 괄부터 시 작해서 CISC , RISC , post RISC 와 미 래의 가 
능한 구성 방식 을 서 술한다. 특히 초스칼라，초관흐름，분리 형 CISC/RISC VLIW 와 현재극 
소형처리기들과 매몰형처리기들의 다매체확장을 연구한다. 또한 큰 체계들의 제작블로크 
로서 이 극소형 처 리 기 들을 리 용하는데 서 다중처 리 지 원을 조사한다. 

5장에 서 는 주로 분산기 억기구성 방식 을 서 술한다. 계 층기 억 기 기 술로부터 출발해 서 
MESI snoopy 와 등록부에 기 초한 규약을 포함하는 캐 쉬 일관성 규약을 고찰하고 공유기 억 
기 일 치성 모형 을 소개 한다. 또한 UMA , NORMA , CC - UNMA , COMA 그리 고 DSM 모형 을 
고찰한다. 분산케 쉬，자료미 러 꺼 내 기 ( prefetching ), 완화형 ( relaxed ) 기 억 기 일 치 성 의 성 능평 가 
기 준과 긴 기 억지 연시 간을 은페 하는 다중스레 드처 리 기리용에 따르는 지 연시 간허 용기 술을 
제시한다. DSM 의 하드웨 어지 원과 쏘 프트웨 어 도구가 제시되며 자세한것은 8, 10장에 서 
보기로 한다. 

6장에서는 기 가비트망과 절환되는 호상접속들이 고찰된다. 망형태，위상수학，기능성 
들과 성능척도를 포함하여 호상접속망기 초부터 시 작한다. 점대점 호상접속외 에 또한 다중 
처리기모천들과 크로스바 ( crossbar ), 다계단절환 ( switch ) 들을 고찰한다. 취급되는 고속망은 
기 가비 트 Ethernet , Fibre 통로， FDE ) I 고리， Myrinet , HiPPI , SCI , ATM 기 술들을 포함하며 기 
가비 트망을 리용하는 실 례 들을 보여 준다. 특히 기 가비 트 Ethernet , TF . F . F , SCI 표준 ， ATM 
절 환과 인 터네 트망을 자세 히 고찰하며 여 러 가지 호상접 속，망 그리 고 절 환들의 량적 인 
비교가 주어 진다. 

7장에서는 독자들에게 개념과 스레드，동기화，다중처리기 혹은 다중콤퓨터에서 
유효통신의 쏘프트웨어 지원을 리해하는데 펄요한것들을 제 시한다. Solaris 에 서 스레 드， 
동기화기구 PVM , MPI , BCL , SP 2 에서 MPL , TCP / IP , UDP 규약, 관, 유닉스환경 에서 주 
로 고속통신을 위한 소케 트 ( socket ) 대 면부를 설명한다. 
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제 4 장. 제작■로크: 극소형처리기 


상품화된 극소형 처 리 기들은 확대 가능한 체 계 들과 클라스터콤퓨터 체 계들을 제 작하는 
데 쓰이고 있다. 

이 장에서는 극소형 처 리기의 체계개 발추세와 구성 방식을 고찰한다. 

먼저 하드웨 어，쏘프트웨 어병 렬처 리기들과 콤퓨터 클라스터의 러용들에서 의 최근 발 
전으로부터 출발해서 그다음 기 본적 인 VLSI 기 술，극소형구성 방식설계, 그라찌스와 다매 
체확장을 고찰한다. 

특히 명 령 준위 병 렬성 , 순서 가 없는 (out-of-order) 동적 이 고 투기 적 인 실행，기 억 기지 연 
시 간감소，다중처 리지원， post-RISC 특징 그리고 미 래의 극소형처 리기 에서 구성 방식을 개 
발하기 위한 새 로운 기 구와 구성 방식 지 원과 같은 성 능특징 에 관심 을 두고 고찰한다. 

4.1. 체계개발추세 

고성 능콤퓨터 들은 일반목적 과 일 반구성 방식 을 가진 확대 가능한 체 계 들로 발전하고 
있다. 이 절에서는 이 체계들에서 하드웨어，쏘프트웨어리용의 개발추세를 고찰한다. 콤 
퓨터체계의 중요한 리용은 정보의 처리, 정보기억，전송을 포함한다. 현대 콤퓨터기술에 
서 몇가지 부족점을 보면 다음과 갈다. 

• 자료전송속도는 처리능력보다 떨어 진다. 즉 콤퓨터는 처리기속도에서 아주 빠 
르지만 처리기와 기억기，디스크, 망사이정보를 이동하는데서는 느리다. 

• 쏘프트웨어는 하드웨어보다 떨어 진다. 쏘프트웨어는 사용자들이 하드웨어용량 
을 충분히 리용할수 없게 한다. 

체계의 기 본비 효률성 은 쏘프트웨 어 비 효률성 에 기 인된다. 나아가서 체계 쏘프트웨 어와 응 
용쏘프트웨어 두개는 언제나 하드웨어보다 한세대 뒤떨어 져 있다. 

4. 1 • 1 • 하드웨어의 발전 

처 리기들 병렬콤퓨터 체계의 구성 요소들가운데서 처 리기는 가장 빠른 기 술적진보를 
이룩하였다. 

그림 4-1 에 Intel 80 X 86 극소형 처 리 기 계 렬 에 대 한 자료가 제 시 되 였 는데 그것 을 보면 
시 간에 따라 성능개선이 지수적 이 라는것을 보여 준다. 바로 17 년이 지 나서 밀도(즉 극소 
형처리기당 3 극소자수)는 거의 200 배，박자속도는 31 배, 최대속도는 900 배 증가하였다. 

이 수자들은 년간 평균증가률이 밀도에서 36%, 박자속도에서 22%, Mi/s 속도에서는 
49% 라는것을 반영한다. 속도증가의 크기 는 박자속도대 신에 처 리 기구성방식 에서의 발전 
으로부터 이루어 졌다. 4.3 절에서 현대 극소형처 리기의 구성 방식발전을 고찰한다. 

Moore 법 칙 지 수적 인 증가현상은 Intel cofounder Gordon Moore 에 의 하여 이 미 1979 년 
에 관찰되 였 다. Moore 법 칙 은 3 가지 로 해 석 된 다. 
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그림 4-1. Intel 극소형 처 러 기 의 개 선추세 


• 미소소편에서 3 극소자수는 소편가격이 같다고 하면 대략 18-24 달마다 두배 중가 
한다. 

• 극소형처 리 기 속도는 처 리 기 값이 같다고 하면 대 략 8~24달마다 두배 증가한다. 

• 미소소편의 가격은 같은 처리기속도 혹은 소편에서 기억기용량이 같다고 하면 
18~24달마다 대 략 48% 떨 어 진다. 

기억기의 발전 기억기는 처리기만큼 중요한 구성요소이다. 그러나 기억기기술의 발 
전은 IBM PC 계렬에 대하여 그림 4-2 에서 보는바와 같이 처리기발전에 보조를 맞추지 
못하였 다. PC / XT 와 비 교하면 Pentium Pro PC 는 900배 이 상으로 처 리 기속도를 증가시 켰으 
나 주기억 기 용량은 64배，하드디 스크용량은 85배 증가되 였 으며 기 억 기 호출시간은 기껏 10 
배로 증가되였다. 

더 우기 곡선은 다른 3개 파라메 터 들이 여 전히 지 수적 으로 증가하는 동안에 주기 억 기 
호출시 간은 386 based PC 에서부터 선형 으로 증가한다는것을 보여 주었다. 

RAM 접근시간은 처리기속도보다 아주 느리게 증가한다. 

그러 나 어 떤 체 계들은 느린 기 억기 호출시간에도 도달할수 없다. 



1982 1984 

PC/XT (8088) PC/AT (80286) 


1988 

80386 PC 


1 抑0 

80486 PC 


1993 

Pentium PC Pentii 


1995 
tium Prc 
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그림 4-2. IBM PC 세 대 에서 하드웨 어발전 








실례로 DEC 8000봉사기에서 기억기소편은 60ns 의 호출시간을 가진다 그러나 기억기 
지 연시 간은 처리기가 주기억기부터 단어를 읽는 시 간이며 250m 로써 훨씬 높다. 

다른 체계들에서 형편은 더욱 나쁘다. 

기 억기지연시간은 RAM 소편에서 60~80ns 로 하면 600ns 만큼 높아 진다. 

디 스크와 레 프단 반도체 소편으로 만든 주기억 기는 콤퓨터체 계 에서 최 초의 기 억장치 
이 다. 두번째，세번째 기 억 장치 는 각각 주로 자기디 스크， 테프로 만들었 다. 그것 들은 또 
한 대 용량기 억 장치 로 알려 져 있 다. 

대 용량기 억 장치는 기계 적운동을 포함하기때 문에 그것들의 속도는 기억기보다 훨씬 
느리 다. 지금은 접근시간과 기 억기대역너 비가 디스크보다 크기 에서 2~3준위 더 좋고 테 
프단 보다는 3~7준위 더 좋다. 

더 우기 RAMs 속도는 디 스크장치 , 레 프단보다 높은 비률로 증가한다. 디 스크/레 프단은 
흔히 I/O 중심 응용에 대 해 서 는 병 목문제 이 다. 

통신부분체계 Intel MPPs 의 통신성능을 그림 4-3 의 처리속도와 비교한다. 여기서 처 
리기 속도는 Intel MPPs 에서 쓰인 단일처리기의 최대 Mflop/s 속도이다. 대역너비와 시동지 
연시 간은 점 대 점 통보문을 보내 는것 에 대한 가장 좋은 평 가기 준이 다. 

다음과 갈은 3가지 관찰들을 그림 4-3 에서부터 엄을수 있다. 

첫째로，모든 3개 성능척도는 지수적 으로 증가한다. 

둘째로, 두개 통신성능척도가운데서 대역너비는 시동지연시간보다 더 빨러 증가한다. 

셋째로，처리기속도(즉 계산용량)는 통신용량보다 훨씬 높은 비률로 중가한다. 1996 
년까지 10년동안에 Intel MPPs 의 처리기 속도는 5000배 증가하였으며 대역너비는 760배 
증가하였지만 시동지 연시 간은 단지 86배만 증가하였다. 
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1985 1987 1989 1992 1996 

iPSC/1 iPSC/2 iPSC/860 Paragon TFLOF 

그림 4-3. Intel MPP 계 렬의 계산과 통신용량비 교 


실례 4.1. Cray Intel 초고속를퓨터의 발전 

두 초고속를퓨터계 렬의 발전추세 를 그림 4-4 에 서 보여 주었 다. 하나는 proprietory 처 
리기를 리용하고 다른것은 Intel 극소형처 리기 를 리용한것 이 다. 
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n) Cray vectOT 초고속콤퓨터 i.) Intel MPPs 

그림 4-4. Cray 초고속콤퓨터 와 Intel 병 렬처 리 기의 발전추세 

표 4-1 은 모든 자료점들을 종합한다. Cray 처러기최대속도는 16년동안에 주로 박자속 
도에서 12.5 배 증가하였다. 

m 년기 간 Intel 극소형처 리기는 속도에서 5000배 증가하였는데 그 가운데서 25배만이 
아주 빠른 박자속도로부터 나오며 나머지 200배는 극소형구성방식의 발전에서 나온다. 

같은 주기동안에 Intel MPPs 에 대 한 한통로 ( one - way ) 점대점통신대역너 비는 760배 중 
가하였 으며 지 연시 간은 86배 로 증가하였 다. Cray 초고속를퓨터 는 주기 억 기 토서 고속 
RAMs 을 리 용하며 주문설계 화된 크로스바 ( custom-designed crossbar ) 는 높은 대역너비와 
낮은 통신지 연시간을 제공한다. 결과 Cray 초고속콤퓨터에서 동작하는 응용프로그람은 흔 
히 다른 MPPs ( l %~30%) 에 서 보다 더 높은 리용을 가진다(15%~45%). 


표 4-1 分松호 EL 적醫拜 51 와 Intel MPP 계렬의 _ 


판매자 

콤퓨터 

년도 

박자 

기억기 

속도 

대역너비 

시동시간 

Cray 

Cray 1 

1979 

80 

1 

160 

알려 지지 

않음 

알려 지지 

않음 

X-MP 

1983 

105 

2 

210 

알려 지지 

않음 

알려 지지 

않음 

Y-MP 

1987 

166 

256 

333 

알려 지지 

않음 

알려 지지 

않음 

C90 

1991 

238 

256 

1000 

9444 

0.1 

T90 

1995 

454 

512 

2000 

알려 지지 

않음 

알려 지지 

않음 

Intel 

IPSC/1 

1985 

8 

0.5-4.5 

0.04 

0.5 

8 的 

IPC/2 

1987 

16 

4-16 

0.3 

2.2 

390 
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75 
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40 
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4. 1 . 2. 쏘프트웨어의 발전 

순차쏘프트웨 어의 상태에 비하면 병렬쏘프트웨 어의 발전은 낮은 상태에 있다. 

병렬기계는 사용자들이 2장에서 고찰한 많은 새로운 론점에 직면하고 있기때문에 프 
로그람화하기가 힘들다. 

더우기 병 렬 프로그람작성 을 지 원하는 좋은 쏘프트웨어 도구가 결 평되 여 있다. 많은 
도구들은 병렬체계구성방식의 빠른 변화로 하여 그것이 완성된후 곧 낡아 진다. 

결과적으로 많은 병 렬 응용프로그람들은 순차 Fortran 혹은 C 와 서 고함수 혹은 처 리관 
리와 호상작용을 위한 콤파일러명 령을 리용하여 발전하였다. 

일반적 인 경우에 쏘프트웨어도구(혹은 간단히 도구)라는 용어는 체계가 아래와 같이 
말단사용자에 게 제 공하는 쏘프트웨 어 리용을 의 미한다. 


• 조작체 계 리 용 

• 응용부분체 계 와 미 들웨 어 (middleware) (실 례 로 자료기 지 와 단위 업 무처 러 모니 터 ) 

• 프로그람작성언어와 콤파일러 

• 서 고들(실 례 로 기 본계 산, 통신, 다중스레 드작성 을 위한) 

• 프로필링，오유수정 , 가시 화리용 

고성능콤퓨터들은 DSMS, MPP, 클라스터 로 지향하고 있고 병 렬쏘프트웨 어의 위기는 
더 심 각해 지고 있 다. 

그러나 아래와 갈은 몇가지 문제는 눈에 뜨이게 발전하였다. 

• 병 렬 쏘프트웨어 에 무엇 이 필 요되 는가를 잘 알고 있다. 관건적 인 문제 들과 론점 
들이 확인되 고 유효풀이 가 명 백 해 지 고 있 다. 

• 각이한 플래 트홈들가운데서 이식성 있고 몇개의 기계세대 에 대 하여 확대 가능한 
구성방식의존성도구를 개발해야 한다는 의견이 일치되고 있다. 이 의존성원리는 
어떤 성능을 떨구더라도 유지되여야 한다. 

• 오히려 공개령역에 있는열린 표준도구들을 개발하여야 한다. 그러한 도구들의 
실 례 들로는 다중스레 드화를 위한 Pthread, 자료-병 렬프로그람작성 을 위한 HPF, 
통보문넘 기 기 를 위 한 MPI, PVM 을 포함한다. 

• 체 계쏘프트웨어 와 응용쏘프트웨 어판매 자들은 자기 들의 생 산품의 병 렬차원수를 발 
전시키고 있다. 실례로 모든 주요자료기지판매자들은 (IBM, Oracle, Sybase, Informx) 
지금 병렬자료기지를 준비하고 있다. 

4. 1 . 3. 응용프로그람의 발전 

응용령역에서 병렬쏘프트웨어는 역시 훨씬 뒤떨어 져 있다. 

특히 상업적응용을 위하여 개발된 병렬프로그람은 거의 없다. 병렬응용프로그람을 
개 발하는것은 시간이 드는 과제 이 다. 그러므로 성능，이식성，확대가능성은 프로그람발전 
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속에서 고찰되여야 한다. 

몇가지 주목할만한 발전들을 언급하자. 

병렬파라다임 몇개의 순환파라다임은 계산-호상작용 ( compute - interact ), 동기반복，비동 
기 반복, 관흐름, 분할획 득 ( divide - conquer ), process farm ( master / slave ) 과 process pool 와 같은 병 
렬알고리 듬을 구조화하는데 결 합된 다. 

병 렬알고리 듬 과거 10년은 병 렬알고러 듬이 폭발적 으로 축적 되 였 다. 많은 새 로운 병 
렬알고리 듬들이 매 일 발견되 였 다. 유감스럽 게 도 대 부분의 그러한 병 렬알고리 듬들은 비현 
실적인 PRAM 모형 혹은 그것의 변종들에 기초하고 있는데 중요하고 상세한것들은 등한 
시하였다. 쓸모 있고 현실적인 병렬응용프로그람을 개발하기 위하여서는 이 알고리듬들 
이 보다 실천적인 BSP 모형 혹은 위상모형에로 넘어 가야 한다. 

병 렬 표준 응용프로그람들은 고수준，표준언 어 (실 례 로 Fortran 혹은 C ) 와 표준서고함수 
(실례로 MPI 혹은 PVM ) 혹은 콤파일러명령(실례로 HPF ) 을 씨서 코드화되여야 한다. 

독립 성 응용프로그람은 한번 개 발되 면 각이한 플래 트홈과 각이한 기 계 크기 에 서 적 게 
수정 되 면서 효률적 으로 실 행할수 있 어 야 한다. 코드는 호상접 속망의 위 상수학 ( topology ) 과 
같은 특정한 구성방식특징과 독립이여야 한다. 

거친 립도 병렬응용프로그람들은 coarse - grain 병렬성을 개발하여야 한다. 그림 4_3에 
서 례중하는바와 같이 병렬콤퓨터의 통신부가처 리는 처리속도보다 훨씬 낮은 률로 증가 
되 고 있 는데 이 추세 는 계 속되 고 있 다. Coarse - grain 병 렬 프로그람은 현재 병 렬 륭퓨터 의 
세대 에 비해 더 좋은 확대 가능성을 가진다. 확대 가능한 콤퓨터제 작을 자극하는것은 그것 
들을 요구하는 과학，사회경제적중요성과 관련되여 있으며 를퓨터체계의 빠른 발전으로 
하여 응용범위는 계속 넓어 지고 있다. 

개 인용콤퓨터와 인터네트의 효과성으로 하여 콤퓨터자원들은 지금 전문가만이 아니 
라 보통 사람들에게 접근하고 있다. 아래 에서 확대 가능한 콤퓨터를 요구하는 몇가지 중 
요한 응용클라스들을 고찰한다. 

기 술적응용들 많은 과학기 술분야들은 확대 가능한 콤퓨터 들 특히 고성 능콤퓨터 들로 
부터 많은 리득을 얻 고 있다. 콤퓨터 이전에 과학은 리 론적，실험 적방법들에 의해 연구되 
였 다. 

콤퓨터 들은 계3의 방법을 제 공하는데 그것은 계산생 물학, 계산물리 학，계산화학과 같 
은 새로운 과학분야를 창조하였다. 

콤퓨터 의 중요성 은 Kenneth Wiason 에 의 하여 강조되 였 는데 그는 초고속콤퓨터 는 갈 
릴 레 오망원경 다음에 발명 된 가장 중요한 도구이라고 말하였 다. 

아래 에 대 표적 인 과학과 공학적 응용들을 렬 거 한다. 그러한 응용들의 일 반적 인 특징 은 
그것 들이 계 산력 특히 는 류동소수점용량에 대 해 무제 한한 요구를 가지 고 있 다는것 이 다. 

확대가능한 콤퓨터들은 언제나 짧은 시간동안에 제기된 문제를 풀고 대규모문제를 
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푸는데 리용된다. 


• 생물학 약품설계, 단백질폴덩，유전정보학，인체모의，가상인간 등에 리용된다. 

• 화학 촉매와 효소의 연구, 화학설계모의 등에 리용된다. 

• 물리학 새로운 물질，반도체모의，핵심부융합체계설계연구, 소립자연구 등에 리 
용된 다. 

• 천문학 우주론，은하계형성，태양동력학，흑점충돌，천문학자료해석 등에 러용 
된 다. 

• 기후와 날씨 날씨예보，기후예측 등에 러용된다. 

• 환경 오염흐름모형화，공기와 물질모형화, 생태계, 지구관측체계 등에 리용된다. 

• 지구물리학 지진자료해석，저수지모형화，지진예측 등에 러용된다. 

• 공학 운반기구, 건물, 다리의 설계，소편모의，기관설계，고주파회로모의 등에 
리 용된 다. 

• 화상과 신호처리 시공간적응처리, 합성벌린면레이다, 화상실감묘사와 해석，가상 
현실 등에 리용된다. 

업 무응용프로그람 과학/공학계 산응용프로그람은 콤퓨터 응용시 장에 서 작은 부분만을 
차지하지만 훨씬 큰 부분이 상업적응용프로그람으로 이루어 진다. 

그러한 응용프로그람들은 과학/공학응용과 같이 높은 계산력을 요구 할수 없지만 종 
종 큰 기억기와 디스크 용량，높은 I / O 들을 요구 한다. 

또한 높은 RAS (믿음성, 유용성，장치가능성)를 가진 콤퓨터체계를 요구한다. 전형적 
인 상업 적응용프로그람은 다음과 같다. 

• 자료기지관리와 질문 

• 직결단위업무처리 

• 자료창고화 

• 결심채택지원체계 

• 제조업과 소매 에서 자료발굴 

망리용 최 근 리용추세 는 망중심 계 산이 며 망을 통해 접 속된 많은 콤퓨터 들에 서 응용 
프로그람이 동작한다. 망은 작은 국부망 혹은 인 터네 트일수 있 다. 

주요한 요구는 유효통신, 균형화，호상운영성，보안을 포함한다. 

이 령역 에서 대표적 인 응용프로그람은 다음과 같다. 


• WWW 봉사 

• 다매 체 처 리 

• 요청 비 데 오 

• 전자상거래 

• 특정령 역에 대한 수자서 고 
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• 원격학습과 공동연구 

• 원격의학과 건강관리 

처리량 특별히 개 발된 병 렬응용프로그람은 병 렬콤퓨터 에서만 동작한다는것은 그릇 
된 견해이다. 

많은 사용자들은 병렬콤퓨터를 대용량기억기와 강력한 처리기를 가진 거대한 워크스 
테 이 선으로 보는것 이 현실 이 다. 병 렬콤퓨터 는 각이 한 사용자들의 다중순차프로그람들을 
동시에 실행시킨다. 

이것은 처리량으로 알려 져 있다. 

단일 주소(실 례 로 PVPS, SMPs, DSMs) 를 가진 를퓨터체 계 들은 다중주소공간기 계 들(실 
례 로 클라스터 와 통보문넘 기 기 MPPs) 보다 우세하다. 

응용특징 수천개 의 순차응용쏘프트웨 어묶음을 별개 로 하면서 성 숙되 고 이 식성 있는 
유효한 병 렬응용들이 출현하였 다. 이것은 병 렬기계들을 프로그람화하는것 이 힘들다는 사 
실에 기인된다. 

다른 리유는 특정응용에 대 한 병 렬쏘프트웨어 의 부족점 에 있 다. 이 것은 그림 4-5 에 
있는 4차원응용공간에 의해 설명된다. 
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그림 4-5. 프로그람특징에 의해 분할된 응용령역 


응용공간은 알고리듬의 정규성, 병렬성정도, 계산론적정규성, 호상작용부가처리에 따 
라 다시 분할한다. 

이 4개의 특징들은 전체적으로 독립 이 아니 다. 매개 정 방형은 한개의 특별한 응용령 
역을 표현한다. 

오늘날의 대부분의 병 렬콤퓨터들은 16개 정방형에 속하는 응용프로그람들을 지원하 
도륵 유리하게 되 여 있 다. 그 응용프로그람들은 병 렬 성 의 고수준, 거 친 립 도, 낮은 호상 
작용부가처 리, 정 규알고리 듬구조를 가진 다. 

여 러 가지 콤퓨터들은 각이한 응용령역 에서 각이하게 수행할수 있다. 실례 로 정 방형 
11 혹은 12를 람색 하려 고 하면 5개 의 grain 병 렬 성 은 어 떤 응용프로그람들에 내 장된 대 용 
량병 렬 성 을 리용할수 있 다. 

일반적 으로 말해서 낮은 통신부가처 리 가 있는 높고 정규적 인 구조화된 병 렬성 을 가 
진 응용프로그람들은 립 도에 관계 없 이 아주 믿 음직하다. 
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특별한 응용령 역을 탐색하는것은 아주 도전적 인 과제 이 다. 

그것 은 콤퓨터 구성 방식 과 그것 의 프로그람작성 환경 을 개 선할것 을 요구할수 있 다. 

4. 2. 처리기설계원리 

이 절에서는 고성능처리기설계원리를 고찰한다. 먼저 몇가지 기본처리기용어들을 소 
개한 다음 처 리 기 구성 방식 다시 말해 서 CISC, RISC, 초스칼라, 초관흐름，분리 형 
CISC/RISC, VLIW 와 다매 체확장을 고찰한다. 

상품화된 극소형처 리기계 렬들은 4.3 절에서 그것들의 성능특징과 비교하여 고찰한다. 
Pentium Pro, Alpha 21164 는 4.4 절 에 서 실 례 로서 제 시 한다. 

4. 2. 1 • 명령관흐■의 기초 

전형적인 명령실행은 본질적으로 4 개 단계로 이루어 진다. 즉 꺼내기，복호화, 실행, 
후 쓰기 (write-back) 들이 다. 

이 실 행 단계 들은 흔히 명 령관흐름이 라고 부르는 여 러 단계 를 가지 는 관흐름화된 처 
리기에 의해 수행된다. 

관흐름은 공업적조립흐름선과 같이 많은 순차명 령들을 실행한다. 순차명 령들은 프로 
그람순서 에 따라 관흐름으로 들어 간다. 

비순차실행은 분기 혹은 새치기들을 우연히 만날 때일어 날것이다. 

관흐름화의 기 본방법 은 시 간을 절 약하고 통과능력 을 증가시 키 기 위해 련속명 령실행 
을 중복시 키 는것 이 다. 

명 령관흐름설 계，연산(동작)，평 가에 관한 기 본정 의 들을 아래 에 제 시한다. 

(1) 관흐름주기 혹은 처리기주기 관흐름동작을 구동하는 박자주기는 흔히 관흐름에 
서 단일단계동작을 완성하는 최대시 간지 연과 같다. 

(2) 명 령 발행 ( issue ) 지 연시 간 프로그람렬 에 서 두개 의 린접 한 명 령 의 발행 사이 의 처 리 
기 주기 수이 다. 

(3) CPI (명 령당 주기 ) 관흐름을 통하여 주어 진 명 령을 실행하는데 요구되는 주기수 
이 다. 이 량은 명 령 의 존성이 며 따라서 평 균 CPI 는 흔히 프로그람결 합에 쓰인다. 

(4) 명 령발행률 주기당 발행되 는 명 령수이 다. 이것 을 초스칼라처 리기의 다중성 이라 
고 부론다. 

(5) 단순동작 단순한 동작들은 실 행하는데 한개 주기 만을 요구한다. 대 부분의 RISC 
명 령들은 옹근수더하기，이동，분기 등과 같이 단순하다. 

(6) 복합동작 복합명 령 은 실 행하는데 많은 주기 들을 요구한다. 실 례 로는 나누기，대 
수，기 억 기참조 등을 들수 있 다. 

(7) 자원충돌 이것은 두개 혹은 그이상의 명령들이 동시에 갈은 관흐름의 리용을 요 
구하는 경 우를 가리 킨다. 
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기 본관흐름화개 념 

단일발행 처리 기는 그림 4-6 에 있는바와 같이 4개 단계 로 이루어 진 기 준선관흐름으 
로 정 의한다. 한개 명 령은 한개 주기 에 서 발행하며 린접하는 발행 사이 에 한개 주기 를 가 
진다. 그림 은 명 령 에서 순차실 행 의 리상적 인 경 우를 보여 준다. 순차실행 은 관흐름에서 
분기와 새 치 기의 효과가 생 략된것 을 가리킨다. 관이 일단 채 워 지면 매 명 령은 관흐름에 
서 효과적으로 벗 어 나는데 한개 주기만을 요구한다. 

분기 혹은 새치기가 프로그람렬에서 생길 때 목표위치에서 다음명령을 꺼내기 위하 
여 관흐름을 비게 하여야 한다. 이 비순차실행은 매 분기 혹은 새치기로 보상되는 큰 벌 
칙으로 이끌어 갈수 있다. 

분기예측은 흔히 순차벌칙을 감소 혹은 제거시키기 위해 실행된다. 


■ 꺼내기 실행 




■ 


눈 

복호 후쓰기 

련속지령 

- i 

터 

검 
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0 1 2 3 4 5 6 7 8 9 10 11 12 13 주기 


그림 4-6. 순차관흐름화된 명령실행 

주기란 무엇인가 ? 때때로 작업부하는 처리기박자주기수에 의해 표현된다. 고수준언 
어프로그람의 실행가능한 부분은 명령문렬에 포함된다. 매 명령문은 2진코드로 된 명령 
렬로 옳긴다. 명령은 기계주기 혹은 관흐름주기라고 부르는 기본단계로서 처리기에 의해 
실행된 다. 

명령에서 실행된 이 기계주기렬을 명령주기라고 부론다. 

매 기계주기는 하나 혹은 그이상의 처리기박자주기(간단히 박자로 알려 진)들로 이루 
어 지는데 처 리기박자속도의 역수이다. 극소형처 리기 에서 처 리기내부에 활동체 만을 포함 
하는 기계주기 를 내부주기 라고 부론다. 처 리 기모선이 활성되는데 필요할 때 처 리 기 외부 
로 가는데 필 요한 기 계주기 를 모선주기 라고 부론다. 

처리기는 수백(혹은 그이상)개의 여러가지 명령주기들을 가진다. 이것은 각이한 
명령들이 각이한 명령주기들을 가지며 많은 처리기들이 100개이상의 명령들을 가지기 
때 문이 다. 

더우기 같은 명령은 여러가지 CPU 상태에서 실행될 때 각이한 명령주기를 가진다. 

수백개의 여러가지 명령주기들을 직접 효률적으로 실행하는것은 힘들다. 처리기설계 
에서 기본기술은 기계주기의 작은 모임을 정의 하는것 이며 그것은 모든 명 령 주기들을 실 
현하는데 리용될수 있다. 매 기계주기는 보통 고정된 박자주기수와 매 박자주기 에서 나 
타나는 조종신호들의 고정모임으로 이루어 진다. 

모선주기 대 처리기주기 콤퓨터체계에서 여러가지 부분체계들은 흔히 각이한 박자 
속도에서 구동된다. 실례로 IBM PC 는 250 MHz 박자속도와 체계모선에 대해서는 66 MHz 
를 가진 처리기를 리용할수 있다. 처리기박자주기는 1000/250=4 ns 이며 모선박자주기는 
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15 ns 이 다. 


실 례 4.2. 명 령 관흐름과 Pentium 의 주기 시 간 

Intel Pentium 처 리 기 에서 옹근수명 령들은 그림 4_7에서 보여 주는바와 같이 5단계 로 
실 행 된다. 매 단계 는 기 계주기 를 실 행한다. 리상적 인 환경 에 서 매 관흐름단계 는 한개 박 
자지연만을 가져 온다. 따라서 옹근수명 령 주기 는 5개 관흐름박자만큼 짧아 질수 있 다. 



그림 4-7. Intel Pentium 처 리기 에서 명 령 판흐름 


다음명령이 캐쉬에 있으면 명령꺼내기단계는 캐쉬로부터 명령을 꺼내는 내부기계주 
기 를 실 행한다. 

그러한 기계주기는 한개 박자만을 필요로 한다. 그러나 명령이 캐쉬에 있지 않으면 
명 령꺼 내기단계는 기 억기 로부터 캐쉬행을 적재하는 모선주기를 실행할것 이 다. 

이 캐쉬채우기모선주기는 5 혹은 그이상의 모선박자를 가지는데 기억기가 얼마나 빠 
른가에 달려 있 다. 수 5는 다음과 같은 사실에서 나온다. Pentium 에서 캐 쉬 준위 에 32 byte 
가 있고 자료모선은 64 bit (혹은 8 bit ) 폭을 가진다. 리상적 인 경우에 캐쉬채우기모선주기는 
주소와 다른 신호를 기 억기 에 보내는데 한개 모선박자, 캐 쉬행 에서 4 x 8=32 byte 를 전송 
하는데 4개 의 추가적 인 모선박자를 소비한다. 


실 례 4.3. Pentium 처 리 기 에 서 명 령 실 행 

다음과 같은 명 령 이 pentium 처 리 기 에 서 실 행 되 여 가상기 억 위 치 M 에 서 자료단어 를 
작업 등록기 EAX 로 적 재한다고 가정 하자. 

즉 MOV EAX , M 

명령 그자체가 I - 캐쉬에 있지만 적재된 자료단어는 D - 캐쉬에 있지 않다고 하자. 그 
러 면 명 령주기 는 그림 4-7 에 서 보여 준 관흐름을 통하여 다음과 같은 5개 주기 들의 렬 로 
이루어 진다. 

(1) I - 캐쉬에서 명령꺼내기 

(2) 명령복호단계 1실행 

(3) 명 령 복호 단계 2와 주소변환실 행 

(4) D - 캐 쉬 에서 한개 캐 쉬행꺼 내 기 

(5) 자료단어를 등록기 EAX 에 적재 

명 령실행순서 화 명 령 들이 언제 나 프로그람순서 에 따라 실행 될 때 그것을 순서실행 
이 라고 부른다. 

초기의 처 리기들은 모두 프로그람순서대 로 명 령을 실행하도록 설계되 였다. 이 순차 
순서화는 명령이 자료 혹은 다른 명령을 가진 조종의존성을 계속할수 없을 때 관흐름을 
멎게 한다. 순서실행에서 멎기문제가 나타나면 흔히 처리기효률성은 아주 나빠진다. 
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콤파일러기술들 혹은 전문재순서화기구는 불필요한 관흐름멎기를 제거하기 위해 프 
로그람렬을 재순서 화하는데 쓰일수 있다. 그러 한 프로그람실행형식을 비순서 실행 이 라고 
부른다¬ 
이것은 분기 예 측과 주기 실행 과 함께 동적 프로그람실행 을 가능하게 한다. 프로그람재 
순서화는 또한 불필요한 기억기대기를 제거할수 있다. 



관흐름설 계 파라메 터 들 처 리 기 로서 16 b , 32 b 혹은 64 b 처 러 기 를 고찰한다. 

이 의미를 그림 4-8 에서 준다. 여기서 A 는 주소모선의 폭, 묘는 자료모선의 폭, C 는 
기억기와 캐쉬사이 자료경로폭 ， D 와 E 는 캐쉬와 처리기(등록기들)사이 자료경로폭, D 
와 표는 또한 각각 옹근수등록기 와 류동소수점등록기사이 등록기폭， F 와 G 는 각각 옹 
근수 ALUs 와 류동소수점 ALUs 의 실 행폭들이다. 

A 와 표의 크기는 처리기에 붙은 체계폭은 물론 처리기소편의 핀 ( pin ) 계산에 의해얻 
어 진 다. 파라메터 C , D , 묘는 관흐름화된 자료경 로폭을 결 정한다. 파라메 터 표와 G 는 실 
행 단의 폭을 결정한다. 흔히 모든 이 파라메 터 들의 크기 들은 박자속도와 Mi / s 률을 최 대 
화하기 위해 공동으로 결정된다. 

처 리 기와 협동처 리 기 를퓨터 의 중앙처 리기를 중앙처 리단 ( CPU ) 이 라고 부론다. 여 기 
서는 단일 VLSI 소편우의 CPUs 에만 관심이 있다. CPU 는 본질적으로 명령처리기인데 등 
록기 파일캐 쉬，산수 및 론러 단 ( ALU )， 류동소수점 단，처 러 기 조종단，체 계 모선대 면부 등과 
같은 다중기능단들로 이루어 진다. 

하나 또는 그이상의 협동처리기를 그림 4-9 에서 보여 준바와 같이 CPU 에 붙인다. 
협동처 리기는 CPU 로부터 발송된 특정한 명 령들을 실행한다. 

협동처 리 기는 류동소수점가속기 , 벡 토르연산수를 실행 하는 벡토르처 리기, 수자신호처 리 
기 ( DSP ) 혹은 다매체정보를 실행하는 매체협동처리기가 될수 있다. 

협동처리기는 혼자서 쓰일수 없다. 그것들은 정규명령들을 조종하거나 I / O 동작을 수 
행할수 없 으며 CPU (처 리 기 )에 의해 수행 된 다. 
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주기억기 ( RAMs ) 



그림 4-9. 처리기와 협동처리기관계 


CPI 와 MPIS 률 CPI 는 단일 명 령 을 실 행하는데 필 요되 는 주기수를 가리킨다. 그러므 
로 CPI 는 각이한 명 령형태 에 따라 변한다. 단순한 동작은 대체 로 실행하는데 한개 주기 
를 요구하며 따라서 1 과 같은 CPI 를 자진 다. 복합명 령 은 흔히 실 행하는데 더 많은 주기 
들을 요구하며 20개 처리기주기를 쉽게 초과할수 있다. 

속도 혹은 처 리기명 령실행률은 흔히 MIPS 률(초당 백만개명 령)에 의해 측정 되 며 박자 
속도에 따라 선형으로 증가한다. 

MIPS 률은 주어 진 처 리기 에서 프로그람을 실행하는데 필요되는 평균 CPI 에 따라 직 
접 줄어 든다. 박자속도 fMHz 와 평균 CPI 를 가진 처 리 기를 고찰하자. 명 령실행률은 

명 령실행률 =//CPI (MPIS 혹은 Mi/s 에서) (4.1) 


로 계산된다. 

/=120MHz, 평균 CPI.6 이 라고 하자. 

그러면 처리기속도는 120/0.6=200MIPS 이다. 

CPI 값은 모든 명령형태에 관해 평균화되여야 하며 주어 진 문제통합에서 각이한 명 
령형태의 빈도에 따라 무게를 주어야 한다. 유럽에서는 MIPS 를 Mi/s 표기법으로 표현한다. 
이 책에서 이 두 표기법들을 서로 엇바꾸어 쓴다. 

4. 2. 2. CISC 로부터 RISC 와 그이상에로 

지난 20 년동안에 CISC (복합명 령모임 계 산)으로부터 RISC (축소명 령모임계 산)에 로의 이 
행은 ISA 에서 본질적 인 변화를 가져 왔다. 아래에서 두 구성방식의 차이점과 류사점들을 
고찰하자. 

를퓨터 의 ISA 는 하드웨 어 에 의해 직 접 실행 된 기 초명 령 을 특징 짓 는다. 다른 말로 
ISA 는 주어 진 처리기형태에 의해 실행가능한 기계명령들을 말한다. 

ISA 의 복잡성은 명령형식, 자료형식，주소화방식，일반목적등록기들， Opcode 명세서， 
리용된 흐름조종기구에 원인이 있다. 

이 특징들에서 여러가지 선택에 기초하여 CISC 와 RISC 는 ISA 에 대한 두개의 학문파 
를 대표하고 있다. 
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현재 주요회 사들에 의해 50여개 의 각이한 구성 방식 들이 발명 되 였 으며 그 구성 방식 들 
에 의하여 수백개 의 완성 품들 이 제 작되 였 다. 

구성 방식차이 RISC 와 CISC 처 러기 들의 기 본하드웨 어구성 방식 을 그림 4-10 에 서 비 
교하였 다. 이 도표는 pure RISC 와 classic CISC 처 러기 들사이 의 구성 방식차이 를 보여 
준 다. 

초기 CISC 구성방식은 명령과 자료 두가지를 보유하기 위해 단일화된 캐쉬를 리용 
하였다. 그것들은 같은 자료/명령경로를 공유하여야 하며 작은 등록기파일을 러용해야 
한다. M 68030 와 68040과 류사하게 최근의 CISC 는 자료와 명령에 대해 분할캐 쉬를 러 
용 한다. 



_，) Classic CISC 처리기 Pure RISC 처러기 

그림 4-10. RISC 와 CISC 처 러 기 에 서 구성 방식 차이 


극소형 프로그람조종은 CISC 처 리 기 에 서 큰 명 령 모임 을 수행 하는데 쓰이 였 다. 그러 나 
최근의 처리기들은 모두 하드웨어된 조종으로 넘어 갔다. 

RISC 처 리 기 에서 분할명 령캐쉬와 자료캐쉬는 여 러 가지 접근경 로를 리용하며 흔히 대 
용량등록기파일이 쓰인다. RISC 는 소편내장실행을 위해 하드웨어된 조종을 리용하여야 
한다. 이것은 관흐름이 과도한 분기 와 새 치기 가 없이 원활히 동작한다면 CPI 를 효과적으 
로 한주기 줄인다. 

CISC 도로지 도 초기 콤퓨터 들은 보다 단순하고 작은 명 령모임 부터 시 작하였 다. 그 
러 나 명 령모임의 복합성은 해 마다 뚜렷하게 증가하였다. 이것은 지난 30년동안에 하드웨 
어비 용의 뚜렷 한 감소와 쏘프트웨 어비 용의 증가로부터 나왔다. 망효과는 아주 많은 기 능 
들이 하드웨어지원에 의 해 제공된것이였으며 복합명령수가 증가하는데 따라 명령모임을 
훨씬 크게 하였다. 

CISC 개 념 은 X86 계 렬 ， Motorola M 6800, Digital VAX 계 렬 그리 고 IBM 주콤퓨터 에서 
잘 표현된다. 명령모임의 증가는 또한 1960년과 1970년에 마크로프로그람화된 조종의 
대중성 에 의해 촉진되 였다. 전형적 인 CISC 명 령모임은 300개 명 령을 쉽게 초과할수 
있 다. 

이것은 8 b 에서 16 b , 32 b , 64 b 의 단어길이에 따라 변수명령/자료형식의 리용에 기인 
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한다. 다만 8~24b 의 일반목적등록기의 작은 모임만이 쓰인다. 

CISC 는 첨수화와 간접주소화를 포함하는 12 개 이 상의 주소화방식 에 기 초한 많은 기 
억 기참조연산들을 허 용한다. 거 의 모든 콤퓨터 제 작자틀은 1960 년부터 RISC 소편 이 출현할 
때까지 (1980 년) CISC 구성 방식 에 많이 투자하였다. 

RISC 도전 CISC 구성 방식 에 서 30 년의 장성후 콤퓨터 사용자들은 ISA 와 쓸모 있는 하 
드웨어/쏘프트웨어기술공학사이 성능관계를 평가하기 시작하였다. 년간 프로그람추적을 
통하여 콤퓨터 과학자들은 결국 25% 의 복합명 령모임 만이 약 95% 의 시 간에 자주 쓰인다 
는것 을 발견하였 다. 이 것은 약 75% 의 하드웨 어지 원명 령 들은 좀처 럼 쓰이 지 않는다는것 
을 의 미한다. RISC 의 기 본방법 은 일 반실 례 를 빠르게 하여 이 전의 CISC 설 계 에 비해 성 능 
에 서 극적 인 증가를 얻 게 하는것 이 다. 

그러면 자연적인 질문이 나온다. 즉 널러 쓰지 않는 명령에 대해 왜 값 비싼 소편을 
랑비해 야 하는가? 

대 답은 프로그람혼합에 서 낮은 리용빈도를 고려한후 복합명 령 을 하드웨 어보다 쏘프 
트웨 어 에 밀 어 야 한다는것 이 다. 

잘 쓰이지 않는 명 령들을 쏘프트웨어 에 미는것은 빈 소평 령역을 엄 어 내 여 단일 
VLSI 소편우에서 전체 처리기를 가능한껏 제작하게 한다. 지어 매 소편내장분할들과 류동 
소수점 단들은 RISC 처 러 기 소편 에 서 제 작한다. 

RISC 명령 모임은 대표적으로 고정 32b 혹은 64b 명령형식을 가진 100 개이 하의 명령을 
포함한다. 

다만 3 개 ~ 5 개의 단순주소화방식을 쓴다. 

이것의 명령들은 등록기에 기초하는데 등록기로부터 연산수들을 꺼내고 결과자료를 
등록기 에 후쓰기해 야 한다는것 을 의 미한다. 

다만 적재/기 억명 령들은 캐쉬 혹은 계 층기 억기 로부터 자료에 접 근한다. 

연산수들은 그것들이 쓰이기전에 작업등록기에 적재되여야 한다. 이 리유로 하여 
RISC 를 적 재/기 억 구성 방식이 라고도 불렀 다. 

RISC 처 리기는 흔히 두개의 분리된 등록기파일 즉 32 옹근수등록기와 32 류동소수점등 
록기를 리용한다. 

어 떤 RISC 처 리 기 들은 100 개 이 상의 등록기 를 리용한다. 

큰 등록기 파일 을 리 용하는것 외 에 소편내 장분할캐 쉬 리 용은 또한 접 근시 간을 뚜렷 히 
짧게 한다. 

RISC 에 서 기 본방법 은 등록기，재순서완충기 혹은 자료-캐쉬 로부터 연산수들을 직 접 
꺼 냄 으로써 대 부분의 명 령 들을 한주기 동안에 실 행하는것 이 다. 

표 4-2 에서 pure RISC 와 classic CISC 처리기의 기본특징을 요약한다. 

일부 구성방식차이는 앞으로 두개의 구성방식들이 기본적으로 같은 기술공학에 따라 
변화하기 때 문에 없어 질것 이다. 

실례 로 분할캐 쉬 와 하드웨 어된 조종은 역시 MC 68060 과 Intel Pentium 에 서 쓰이 고 
있 다. 
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특징 

Classic CISC Architecture 

Pure RISC Architecture 

명령형식 

변수형식: 

16b 32, 64 

고정 32bit 명 령 

박자속！* 

100-226MHz 

180-500MHz 

등록기 파일 

8-24 일반목적 등록기 

(GPR) 

32-192GPRs 웅근수와 

류동소수점 파일 

지령모임크기와 

형래 

300근방，48개 이 상의 명 령 형 식 

100근방，적재/기억을 제외 
하고 등록기에 기초함 

주소화방식 

12개근방, 간접/첨수주소화 

방식 포함 

3~5로 제 한, 읽 기/쓰기 

기 억 기 주소화 

캐쉬설계 

단일 캐 쉬 를 쓴 초기 모형， 

분할캐쉬리용 

대부분분할자료캐쉬와 

명령캐쉬를 리용 

CPI 

평 균 CPI 

卜20주기 , 평 균4주기 

단순동작에 대해 1주기 

평균 1.5 주기근방 

CPU 조종 

대 부분 마이 크로코드작성， 
하드웨어구성된 조종러용 

조종기억기가 없이 대부분 
하드웨어구성된 조종 

대표적인 상업화 

된 처리기 

Inter x86, VAX8600. IBM390, 

MC68040, Intel Pentium AMD 

496, and Cyrix 686 

Sun UltraSparc, MIPS 

R1000, RowerPC 604, HP 

PA-8000, Digital 21164 

* 1997년 최대박자속도에 기초 


ISA 에서 20 년간의 론쟁 

큰 등록기파일，자료완충기 , 분할 I - 캐쉬 와 D - 캐쉬 를 리용하는것 은 내 부자료를 발송 
시키는데 리 익을 주고 중간결과들의 불필요한 기 억을 제 거한다. 

명령모임의 복잡성을 뚜렷하게 줄이는데 따라 RISC 처리기를 단일 VLSI 소편우에 쉽 
게 제작할수 있다. 

결과로 나타난 러득은 높은 박자속도，낮은 평 균 CPI ， 낮은 캐쉬비적중벌칙을 포함하 
며 콤파일러최량화를 위한 더 좋은 기회를 준다. 

그러 나 CISC 에서 RISC 에 로의 이 행은 구성 방식에서의 근본적 인 변화였다. 주요한것 
은 일반적 인 CISC 응용코드에 대해 2진호환성을 없앤것 이 다. 

프로그람추적 에 기 초하여 CISC 프로그람을 등가인 RISC 프로그람으로 전환하는것 은 
코드길 이 (명 령 계 수)에 서 약 40%의 증가를 가져 온다. RISC 코드길 이 에 서 증가는 박자속도 
에 서 의 증가와 RISC 처 리 기 의 평 균 CPI 에 서 의 감소보다 훨 씬 작다. 

RISC 와 CISC 사이의 론쟁 이 끝났다고 볼수 있다. 두 측들은 서로 많은것을 배웠다고 
볼수 있다. 지금 RISC 와 CISC 구성 방식사이 경 계는 오히 려 희미하게 되 였다. 

적지 않는 처리기들은 지금 같은 회로기술을 가지고 제작한 RISC 와 CISC 특징 두가 
지 를 가진 혼성 방식 으로 제 작되 고 있 다. 
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4. 2. 3. 구성방식개선방법 

극소형처 리 기들은 19기년 Intel 4004, 4 -B CPU 부터 시 작하였다. 

이것은 결국 x 86 극소형처리기계렬로 전환되여 가고 있다. 

여러가지 처리기계렬들을 그림 4-11 에 있는 CPI 에 대한 박자속도의 설계공간에서 고 
찰하자. 

처리기기술이 빨러 발전하는데 따라 박자속도는 1980년의 10 MHz 로부터 1997년의 
300 MHz 로 증가하였다. 

오른쪽 아래구석에 있는 그늘진 령역은 앞으로의 처리기설계와 아주 비슷하다. 

단일발행 CISC 혹은 RISC 처 리기들은 설계공간의 왼쪽우에 있다. 평균 CPI 값을 CISC 
처리기에서의 10주기로부터 RISC 기계에서의 1주기이하로 줄이는것이 요구된다. 평균 CPI 
는 개선된 처 리기구성 방식과 콤파일러최 량화에 의해 낮아 질수 있다. 

총체 적 인 설 계목적 은 CPI 를 작은 주기 로 낮추고 동시 에 박자속도를 중가시키 는것 
이다. 



초관흐름화된 설계와 초스칼라 오늘 모든 단일 발행 처리 기들은 다중발행초스칼라구 
성방식 을 가정 하는데 로 나가고 있 다. 

실례 로 CPU 소편들은 두개의 발행초스칼라 CISC 구성 방식 을 가정 하는 M 68060 와 
Pentium 을 포함하며 Power PC 6()1 과 Pentium Pro 는 3개의 발행 RISC 처리기를 가정하고 있 
다 .현재 초스칼라처 러 기 들은 Alpha 21164, Power PC 604 e , HP PA -8000, MIPSR 10000, 
Ultra Sparc -2 처 리기들을 포함하여 주기 당 대 체 로 4개의 명 령을 발행 한다. 

초관흐름처 리 기 들은 아주 높은 박자속도로 구동되 는 깊은 관흐름을 리용하는것 들이 
다. 초관흐름화는 Cray 초고속콤퓨터 로 개 발된 다중위 상박자화기 구를 씨 서 실현된다. 깊은 
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관흐름은 많은 단계를 가지는데 초기 처리기관흐름설계의 몇개 단계들로부터 다시 갈라 
진 다. 

초스칼라와 초관흐름화설계개념을 적용한 일부 처리기들은 CISC 을 가정하든가 RISC 
를 가정 하든가 혹은 혼성 구성 방식 을 가정한다. 이것은 그림 4-11 의 중간에 있다. 

CISC 와 RISC 의 분리 이 방법의 기본우점은 x 86 사용자들에 대하여 보다 좋은 쏘프 
트웨 어호환성 을 가진 다는것 이 다. 

분리된 구성방식은 그림 4-11 의 오른쪽 중심의 겹쳐 지는 면적에서 보여 주는바와 같 
이 CISC, RISC, 초관흐름화，한개 미소소편에서의 초스칼라설계의 우점을 결합한다. 이 
구성 방식 은 pure RISC 혹은 classic CISC 를 가정 하지 않지 만 혼성 CISC/RISC 구성 방식 을 
가정 한다. 

가장 좋은 실례 는 4.4.2 절에서 고찰된 Pentium Pro 핵 심부이 다. 

그 기 본방법 은 x 86 코드를 초스칼라와 혹은 초관흐름화된 실행 을 수행하는 뒤단 
(backend)RISC 핵 심 부를 위 한 RISC 형 명 령 으로 옮기 는 CPU 소편 에 서 앞단 (frontend) 부분을 
가지 는것 이 다. 이 것 을 분리 형 혹은 혼성 CISC/RISC 구성 방식 이 라고 부론다. 

VLIW / 를파일러방법 이 처리기구성방식은 두개의 잘 째인 개념 즉 수평마이크로프 
로그람작성 과 초스칼라실행개 념 으로부터 일 반화된다. 전형 적 인 VLIW (최 장명 령단어， very 
long instruction word) 명 령은 수백 b (다중흐름콤퓨터설계 에서 256 혹은 1024b 와 같은 [241]) 
를 가진다. 

매 VLIW 는 많은 수의 독립동작들로 이루어 지는데 다중기능단들에 의해 병렬로 실 
행 될수 있다. 그것 은 그림 4-11 의 왼쪽 아래구석 에 그려 져 있는데 8 -통로 (way) 병 렬성 을 
가진 다중흐름설계에 대응한다. 

VLIW 처 리 기 는 짧은 (32b) 단어 로 씌 여 진 사용자코드의 아주 높은 명 령 준위 병 렬 성 
(ILP) 을 개발할수 있다. 매 VLIW 명령에서 모든 동작들은 8 -통로， 16 -통로 혹은 병렬성의 
높은 정도를 나타낸다. 

VLIW 의 성 공은 많은 독립 혹은 비관련 짧은 명 령 들을 VLIW 명 령 으로 재 조직 하고 
묶는 지 능콤파일 러 에 의 거한다. 

이 VLIW 방법은 초스칼라처 리기보다 훨씬 낮은 CPI 에 귀 착될수 있다. CPI 는 32 -통로 
VLIW 구성방식에 대해 1/32 로 낮아 질수 있으며 미래의 가능한 처리기설계로 된다. 4.5.3 
절에서 연구한다. 


4. 3. 극소형처리기의 구성방식계렬 

PCs 와 탁상 (desktop) 에 서 미 소소편의 리 용이 널 리 보급됨 에 따라 소편회 사들은 극소 
형처 리기 에 기초한 하드웨 어，쏘프트웨어와 응용에 대한 연구와 개발에 막대한 자원을 
투자할수 있다. 

결과 상품화된 극소형처 리기들은 IBM 주콤퓨터 혹은 Cray 초고속콤퓨터들에서 쓰인 
주문설계된 처리기들의 성능에 가까와 가고 있다. 
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4. 3. 1 . 주요구성방식계렬 


그림 4-12 에 일반목적 과 매몰형응용을 위한 주요 극소형처 리 기구성방식들을 요약 
한다. 

오늘날의 일 반목적극소형처 리 기는 단어길 이 를 32 b 혹은 64 b 로 가정한다. 1997년 가 
격 시세 에 기 초하면 그것들은75$와 500$사이의 높은 가격 으로 판매되 였 다. 

CISC 는 x 84, M 680 x 0 구성 방식 으로 표현된다. 

x 86 은 1978년부터 7세대의 발전을 거치였다. 1995년 x 86 소편의 전 세계적인 적재 
( shipment ) 는 7천만에 도달하였 다. 
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그림 4-12. 극소형처 러기계렬과 대 표적 인 CPU 소편 


계 렬나무로 렬 거하면 5개 의 주요 RISC 구성 방식 이 있 다. 그것 을 보면 수자반도체 에 
의 해 발명 된 Alpha , MIPS 기 술에 의 한 MIPS , Hewlett Packard 에 의 한 PA - RISC , Apple , 
IBM , Motorola 련합에 의 한 Power PC , Sun Microelec 仕 onies 에 의 한 SPARC 등이 다. 매 구 
성방식 을 써 서 많은 제 작자들은 탁상형 , 휴대 형 의 체 계 들을 위한 여 러 가지 도구들을 생 
산하였 다. 

고전적 인 CISC 와 초기 의 RISC 처 리 기 들은 모두 단일 관흐름자료경 로를 리용하는 단일 
발행 처 리 기 틀이 였 다. 


단일발행 CISC 고전적인 처리기들이란 Intel 86, 286, 386, 486 ; Motorola M 680 x 0 계 
렬 ; Digital 의 VAX /8600 그리 고 단일발행 CISC 구성 방식 을 따르는 IBM 370/390과 같은것 
들이다. 이 처 리 기들은 모두 1 혹은 2 주기당 단일명 령 을 발행하도록 설계된다. 

그것 #은 1970년 에 10 MHz 박자이하로 만들어 졌는데 1980년 에 는 100 MHz 이 상으로 
점차 중가되였다. 새6과 M 68040 은 여기에서 CPU 소편의 마지막값을 표현한다. 

단일발행 처리 기의 CPI 는 1에서 20주기사이 에 있으며 마크로구성 방식 에 의거한다. 
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평균값은 명령당 1.5 와 10 주기사이에 놓이며 ISA 와 처리기기술에 의거한다. 이 처리 
기 들은 그림 4-11 의 왼쪽웃구석 에 서 보여 준다. 

단일발행 RISC 그림 4-13 에서 RISC 구성방식의 4 가지 변종을 보여 준다. 즉 단일 
발행 RISC, 초스칼라 RISC, 관흐름화된 RISC, 분리 형 CISC/RISC 들이 다. 

RISC 처 리 기들은 Berkeley RISC 와 1980 년 이 후에 개 발된 Stanford MIPS 의 단일 발행 설 
계부터 시 작하였으며 그 방법 은 Sun SPARC, Micro SPARC MIPS R2000, R3000 등에서 
나왔다. 이 처리기들은 1980 년에 25MHz 의 박자로 만들어 졌으며 1992 년에 120MHz 로 점 
차 올라 갔다. 

하드웨 어 된 조종에 의해 대 부분 명 령 들의 CPI 는 바로 1 주기 로 감소되 였 으며 평 균 
CPI 는 대 부분의 응용프로그람들에 서 1.5 주기아래 에 있 다. 그러 나 단일발행 RISC 의 CPI 는 
박자가 얼마나 빠른가에 관계 없이 더 낮아 질수 없다. 

CISC 이상의 개선은 역시 Intel i860 과 Digital 21064 에서의 초스칼라 RISC 설계 가 출현 
할 때까지 제한되였다. 

4. 3. 2. 초관흐름처리기 대 초스칼라처리기 

처 리 기들의 성능을 개선하기 위한 두가지 기 본기술들은 더 높은 ILP 를 개 발하거 나 
명 령관흐름을 보다 간단한 단계 들로 세 분화하여 박자속도를 증가시키 는것 이 다. 이 두가 
지 기술들을 그림 4-13 에 제시하는데 그것은 서로 지원하게 하며 때때로 보충한다. 

발행률중가 초스칼라처 리 기 에서 다중명 령 들은 주기당 발행 되며 주기당 다중관흐름 
에 의해 다중결과들이 생성된다. 초스칼라처 리 기들은 사용자프로그람에서 ILP 를 개 발 
하기 위해 설계된다. 독립적인 명령들만이 대기상태를 일으킴이 없이 병렬로 실행될수 
있 다. 

ILP 량은 프로그람에서 프로그람으로 변한다. ILP 의 평균값은 보통 프로그람추적에서 
2 와 5 사이 로 측정되 였 다. 일부 전문코드들은 과학 Fortran 코드에 서 500 혹은 그보다 더 
높은 ILP 를 포함할수 있다. 이 리유로 하여 명 령발행률은 현재 초스칼라설 계 에서 2~6 으 
로 제 한되 였 다. 

단일발행 RISC 처 리 기 들은 Digital 의 21064, M88110, Micro SPARC2, Intel i860, 
Pentium, PA7200, MIPS R5000, Cyrix 6x86(Ml 과 M2), M68060 등에서 두 발행 처리 기들의 
도입으로 점차로 바뀌여 졌다. 

이 미소소편들은 초스칼라 RISC 와 x86 초스칼라 CISC 처 리기들을 포함한다. 

관흐름설계선택 그림 4-13 에서 명령관흐름설계를 위한 4 가지 방식을 보여 준다. 모 
든 4 개의 관흐름설계들은 4 가지 단계 로 규정되며 기초관흐름박자주기의 배수인 박자속도 
로 구동된다. 

경 우 니， 근) 에서 초스칼라설계 는 병 렬로 동작하는 3 개의 기능적 인 관흐름리용을 
보여 준다. 
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，44명명 


빠자 



그림 4-13. 기 초관흐름, 초스칼라, 초관흐름처 리 기 들에 서 관흐름동작들 

경우 n ) 와 H ) 는 두개의 초관흐름화된 설계에 대응하는데 박자주기는 단지 경우 
가)와 경우 L ) 의것의 1/3이다. 

이 관흐름동작에서 12개 명 령을 실행하는 4개 방식을 보여 준다. 

실 행 시간은 경 우 1 ) 에 서 경우 근 ) 까지 는 각각 15주기로부터 7주기, 7.66 주기, 5주기 
로 감소한다. 

충분히 큰 작업부하로 경우 니는 경우 丁)보다 가능한 3배 더 빠르다. 

경우 근)는 경우 T ) 보다 9배 더 빠르거나 경우 L ) 혹은 경우 이보다는 3배 더 
빠르 다. 

4개 처 리 기설계의 처 리 량은 류사하게 평 가될수 있으며 갈은 시 간계한이 주어 진다. 
일 반적 으로 발행초스칼라처 리 기는 갈은 박자속도와 같은 관흐름깊 이 를 가정 하면 
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단일발행처리기보다 적어도 W 배 더 빠르다. «배 더 빠른 박자를 가진 초흐름화된 처리기 
는 기초관흐름보다 적어도 «배 더 빠를수 있다. «배 더 빠른 박자[경우 a )] 로 구동된 m - 
발행 처리기 에서 결합속도는 경우 기)에 있는 기초관흐름보다 가능한 mn 이 다. 

초스칼라 x86 구성 방식 오늘날의 x86 극소형 처 리 기 들은 Pentium 과 Pentium Pro 의 여 러 
가지 버 션을 포함하는데 모두 초스칼라처 리 기 들이 다. 표 4-3 에 요약하여 제 시하였 다. 

Intel, AMD, Cyrix 의 3 가지 x86 계 렬들이 이 표에서 비 교된다. 

거 의 모든것 들은 단일 화된 64-KB 캐 쉬 를 러용하는 CyrixM 2 을 제 외 하고 분할 I/D 캐 쉬 
를 리 용한다. 

복호률은 Pentium 과 Cyrix 6x86 설계의 전통적인 초스칼라설계에서의 발행률과 같다. 

Pentium Pro, Pentium?2, AMD K5/6 의 설계에서 복호률은 마이크로명령들이 (uops) 기 
능단들로 발행되기때문에 발행률보다 낮다. 

3 개 의 Pentium 모형 (P54C, P54CS, P55C) 들은 모두 순서 실 행 만을 허 용하는 두개 발행 
초스칼라설 계 들이 다. 


표 4-3 _ 초스칼라극소형처 리기의 기본특징들 


판매자 

Intel 

AMD 

Cyrix 

모형/특징 

Pentium 

Pentium Pro 

Pentium-2 

K5 

K6 

6x86 


P54C 

P54CS 

P55C 

96 

96S 




Ml 

M2 

최대 박자 
속도 (MHz) 

120 

200 

200 

150 

200 

233-266 + 

100 

>180 

150 

225 

Pin-Out 

P54C 

P54C 

P54C 

PPro 

PPro 

Pentium-2 

P54C 

P55C 

P54C 

P55C 

I/D 캐 쉬 

8/8 

8/8 

16/16 

8/8 

8/8 

N.A. 

8/16 

32/32 

16/16 

64Ufd 

(KB) 











MMX 

아니 

아니 

예 

아니 

아니 

예 

아니 

예 

아니 

예 

복호률 

2 

2 

2 

3 

3 

3 

1-4 

2 

2 

2 

발행 률* 

2 

2 

2 

5 

5 

5 

4 

4 

2 

2 


instr. 

instr. 

instr. 

uops 

uops 

uops 

uops 

uops 

instr. 

instr. 

비 순서 실행 

아니 

아니 

아니 

예 

예 

예 

예 

예 

Ltd 

Ltd 

소편 크기 

148 

90 

140 

308 

196 

N.A. 

181 

~180 

167 

<200 

(mm 2 ) 











3 극소자 
(백만개) 

3.3 

3.3 

4.5 

5.5 

5.5 

N.A. 

4.0 

8.8 

3.3 

6.0 

기술 

Bi-CMOS 

CMOS 

Bi-CMOS 

CMOS 

처리 

( 1上 m/layer) 

0.5/4 

0.35/4 

0.28/4 

0.5/4 

0.35/4 

0.28/4 

0.35/3 

0.35/5 

0.44/5 

0.35/5 


* 

x86 명 령 을 가러 킨다. Ufd: Uniied, N. A.(not available), 





+ 

256-KB 2 차캐 쉬 를 포함한다. Ltd: Limited, upos: micro-operation 
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Pentium 에서 U 와 V 관흐름들은 서로 의거한다. 한개 관흐름이 멎을때 다른 관흐름은 
대 기 하여 야 한다. 이 것은 초기 Pentium 모형 에서 주기 를 잃어 관흐름을 위 험 하게 하는 엄 
중한 결함을 발로시 킨다. 최 근의 성능평 가기준에 기초하여 Pentium 은 M86 속도를 2~3 배 
증가시 켰 다. 두개 의 Pentium Pro(96 과 96 이들은 Pentium 의 속도를 두배 로 하였 다. Pentium 
Pro 는 속도성능에서 i486 을 4~6 배 로 중가시 켰다. 


표 4-4 높은 급 초스칼라극소형처리기의 기본특징 


특징 

Digital 

Power- 

Power- 

Ultra- 

Micro 

HP PA- 

MIPS 

MIPS 

Pentium 


21164 

PC620 

PC 304e 

Sparc-2 

Sparc - 2 

8000 

R10000 

R5000 

Pro 

최대 박자 

500 

200 

225 

250 

110 

180 

200 

180 

200 

(MHz) 










캐 쉬 크기 

8/8/96 

32/32 

32/32 

16/8 

16/8 

None 

32/32 

32/32 

8/8 

+(KB) 










발행 률 

4 

4 

4 

4 

2 

4 

4 

2 

3 

관흐름관계 

7-9-12 

5 

6 

6-9 

5 

7-9 

5-7 

5 

12-14 

비 순서 실행 

6 

16 

16 

None 

None 

56 

32 

None 

40 


loads 

inst. 

Instr. 



instr. 

instr. 


ROBs 

이 름교체 

None 

*Int 

12Int 

None 

None 

56 total 

32Int 

None 

40 total 

등록기 

8Fp 

8Fp 





32Fp 



기억기 
대역 너비 

~400 

1,200 

-180 

1300 

~100 

768 

539 

~160 

528 

(MB/s) 










Package, 

CPGA 

CAGA- 

CBGA- 

PBGA- 

CPGA- 

LGA- 

CPGA5 

SBGA 

MCM- 

Pim count 

-499 

625 

255 

521 

321 

1085 

27 

2 

387 









72 


프로쎄스 

0.35/4 

0.35/4 

0.35/4 

0.29/5 

0.4/3 

0.5/4 

0.35/4 

0.35/3 

0.35/4 

Om/ 










layers) 










소편 크기 

209 

240* 

148 

149 

233 

345 

298 

84 

196 

(mm 2 ) 










3 극소자 

9.3m 

6.9m 

5.1m 

3.8m 

2.3m 

3.9m 

5.9m 

3.6m 

5.5m 

전력 (W) 

25 

30 

20* 

30 

9 

>40 

30 

10 

35** 

SPEC95++ 

12.6/18 

9.0/9.0* 

8.5/7.0 

8.5/15 

1.4/1.9 

10.8/18.3 

8.9/17.2 

4.0/3.7 

8.7/6.0 

Integer/FP 

.3 










+ 명 령 캐쉬/ 2 차캐 쉬/ 2 차캐쉬 

++ SPEC95integer/SPEC95floating-point 




* 마이크로설계자원평가 

** 512-KB 2 차캐 쉬 ROB: 재 순서 완충기 





Int: 옹근수 Fp: 류동소수점 





169 


























Pentium-2(Klamath 라고도 부론다.)는 MMX(Multimedia Extension) 특징 을 보충 하여 
Pentium Pro 를 발전시 켰다. 

AMDK6 와 Cyrix 6x86m! 은 성 능에서 Pentium Pro 와 비 교할수 있다. AMDK6 와 Cyrix 
M 2 은 K 5 와 예에서 각각 발전시 킨 MMX 에 대 응한다. 

초스칼라 RISC 처리기들 대부분의 초스칼라설계들은 CISC 대신에 RISC 방법을 선택 
한다. 발행 률은 Power PC 601, i960, Pentium Pro, Pentium - 2 등에 서 3 배 로 증가하였 다. 

오늘날의 초스칼라 RISC 설계들은 표 4-4 에서 보여 주는바와 같이 대부분 4 -발행설 
계로 넘어 갔다. 

이 표는 1997 년까지 상품화된 극소형처 리기 에서의 초스칼라설계 를 요약한것 이 다. 

초스칼라처 리 기 에서 발행률증가는 평 균 CPI 률을 발행률 2.3, 4 에 대 해 각각 최 소값 
0.5, 0.33, 0.25 로 가까와 가도록 낮출수 있 다는것 을 의 미한다. 

분리 형 CISC/RISC CMOS 는 미 소소편을 계작하는데 서 확대 가능한 VLSI 기 술이 라는것 
이 증명되였다. 

분리형구성방식은 같은 CPU 소편에서 CISC 와 RISC 두가지 구성방식으로부터 공정적 인 
특징들을 통합한다. 분리형구성 방식은 현재 Pentium Pro 라고 부르는 Intel P 6 의 발전으로 대 
중화되 였다. P 6 의 구체적 인 연구는 다음절에서 한다. 

류사한 분리된 처 리기설계는 AMD Ke, Cyrix M! 과 MIPS R1000 에서도 출현하였다. 
그 특징 들을 표 4-3 에 제 시하였 다. 

극소형처 리 기 성 능 그림 4-14 에 서 6 개 의 초스칼라 RISC 혹은 분리 형 CISC/RISC 극소 
형처리기의 SPEC95 성능을 비교한다. 



그림 4-14. log 척 도에 서 상품화된 극소형 처 려 기 의 SPEC int 95 와 fj)95(base) 성 능 
(M.slater,IEEE Micro,D 明.1996[566]) 


매 처리기의 박자속도는 가로축을 잘라서 본다. 

Alpha 21164, PA-8000 그리 고 R10000 은 비 교가능한 류동소수점성 능을 가진다. 

옹근수성능에서 차이는 아주 작다. Power PC 와 Pentium Pro 의 설계는 주로 보다 
좋은 쏘프트웨 어호환성 을 가진 업 무응용프로그람을 위한것 이 다. 6 개 가운데 서 Alpha 소 
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편은 성 능과 박자속도에 서 가장 높은 자리 를 차지한다. 그러 나 Alpha 는 성 능/비 용률에 
서 가장 낮은 자리 를 차지한다. Alpha 21164, PA-800, R10000 는 비 교가능한 SPECfp95 
성 능을 가진 다. SPEC int95 성 능차이 는 R10000, Power PC604e, Pentium 처 리 기 가운데 서 
오히려 작다. 


4. 3. 3. 매몰령극소형처리기들 

매몰형처 리기들은 전자공학을 수자화하였 다. 계 작자들이 그것들을 대 량적으로 생산 


표 4-5 선택된 매들형극소형처리기 (M.slater, IEEE Micro, Dec.l996[566]) 의 기본특징 


제작자 

Digital 

VLSI 

NEC 

Hitachi 

IBM 

Motorols 

Intel 

모형 

SA-110 

ARM 

710 

R4300 

SH 

7604 

PPC 

403GA 

860 

DC 

68EC 

040 

CF 

5102 

960 

JA 

960 

HT 

구성 방식 

ARM 

Strong- 

ARM 

MIPS 

SuperH 

PC 

PC 

68000 

Cold- 

Fire 

I960 

I960 

박자 

(MHz) 

200 

40 

133 

20 

33 

40 

40 

25 

33 

60 

I/D 캐 쉬 

(Kbytes) 

16/16 

8/8 

16/8 

4/4 

2/1 

4/4 

4/4 

2/1 

2/1 

16/8 

FPU 

아니 

아니 

예 

아니 

아니 

아니 

예 

아니 

아니 

아니 

MMU 

예 

예 

예 

아니 

아니 

예 

예 

아니 

아니 

아니 

모선주파수 

(MHz) 

66 

40 

66 

20 

33 

40 

40 

25 

33 

20 

MIPS+ 

230 

36 

160 

20 

41 

52 

44 

27 

28 

1008 

전압 

bus) 

2.0/3.0 

5 

3.3 

3.3 

3.3 

3.3 

5 

3.3 

3.3 

3.3 

전력 

(mW) 

900 

424 

2200 

200 

265 

900 

4500 

900 

500 

45020 

MIPSAV 

239 

85 

73 

100 

155 

58 

10 

30 

56 

22 

3 극소자 
(백만개) 

2.1 

0.6 

1.7 

0.45 

0.58 

1.8 

1.2 

N.A. 

0.75 

2.3 

프로쎄스 

("m/layers) 

0.35/3 

0.6/2 

0.35/3 

0.8/2 

0.5/3 

0.5/3 

0.65/3 

0.6/3 

0.8/3 

0.6/4 

Die 크기 
(mm 2 ) 

50 

34 

45 

82 

39 

25 

163 

N.A. 

64 

100 

+MIPS(million instructions per second) 은 Dhrystoen 2.1 에 기초， 

FPU: 류동소수점 단 MMU: 기 억 기 관리 단 
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하였다. 표 4-5 에 선택적으로 렬거된것이 일부 대표적인 매몰형처리기모형과 그것들의 
특징 들이 다. 

매몰형 처 리 기들은 주로 DSP(digital signal processing ), 매체 처 리，극소형 조종기 응용들 
을 위한것 이 다. 

이 처리기들은 단어길이가 4 b 에서 8, 16, 32 b 의 넓은 범위에 있다. 매몰형제품의 단 
가는 5$에 서 40$사이 에 서 많이 변한다. 4 b 와 8 b 매 몰형소편들이 세 탁기，휴대 용전화기 , 원 
격 조종, 전자완구와 매 몰형 조종목적 을 위한 많은 작은 장치 들에 널 리 쓰이 였 다. 

실례 로 4 b 처 러기소편들의 전 세계 적 인 판매는 1996년 말까지 16 x 10 억을 초과하 
였 다. 

16 b 와 32 b 매 몰형소편들은 DSP , 인쇄 기，다매 체 그리 고 조종응용을 위한것 들이 다. 
1995년 에 32 b Hitachi SuperH 적 재 는 영 상유희 시 장의 막대 한 수요로 하여 혼자서 14 X 100 
만을 초과하였다. 


4. 4. 극소형처리기의 실례연구 

우리는 여 기 에서 지난 10년동안 RISC / CISC 에서 진화적변화의 두 극단을 표현하는 
두개의 극소형처 리기를 연구한다. 

Digital 의 Alpha 21164처리기는 한 극단에 있는데 일반적인 초스칼라 RISC 구성방식에 
적 합하다. 그것 은 RISC 명 령 을 순서 대 로 실 행한다. Alpha 설 계 자들은 박자속도를 가장 빠 
르게 하였는데 CMOS 기술을 제공할수 있다. 

다른 극단에 는 Pentium Pro 처 리 기 가 있는데 4.4.2 절 에 서 서 술된바와 같이 분리 형 
CISC / RISC 방법 을 재 순서화된 마이 크로동작을 실 행하는데 리용하였 다. 

Pentium 방법 은 PC 와 노트형콤퓨터공업 에 서 현재 x 86 ISA 와의 쏘프트웨 어호환성 을 
더 강조한다. 

4. 4. 1. Digital 의 Alpha 21164 극소형처리기 

이 4-발행 Alpha 소편은 Digital 의 64 b AXP 구성 방식 에 기초하며 성능은 초스칼라 RISC 
극소형처리기가운데서 제일 높다. 21164의 구성방식은 그림 4-15 에서 보여 준다. 

4개 의 실 행단，곱하기 등록기파일, 분할 I / D 캐 쉬 그러 고 0.35 um CMOS 소편에 2차캐 쉬 
가 있다. 

CMOS 소편은 외부3차캐쉬와 다중처 러기 snoopy 모선일관성조종에 접근하기 위한 매몰형 
캐 쉬 조종과 모선대면부 ( CBOX 라고 부론다.)를 가진 다. 

처리기는 6개의 재순서화된 적재동작을 계외하고 순서프로그람들을 실행한다. 그러 
나 21164는 nonread 명 령 들을 순서 가 없 이 실 행 할수 없 다. 대 부분의 다른 초스칼라처 리 기 
는 명 령혼합을 순서 가 없 이 실행할수 있도록 설계한다. 이 런 의 미 에서 AXP 구성 방식은 
이를 개발하는데서 오히려 보수적이다. 

고속박자속도 Digital 은 Alpha 계 렬에서 최 대박자속도방법 을 선택 하고 1992년에 는 
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200 MHz 21064， 1994 년 에 는 275 MHz 21064 A , 1995 년 에 는 300 MHz 21164, 1996 년 에 는 
500 MHz 21164 A 부터 시작하였다. 

회 사는 500 MHz 21164 를 적 재하였 으며 대 부분의 다른 CPU 소편들은 아직 표 4_4에 렬 
거한바와 같이 200~250 MHz 로 제한되여 있 다. 이 CPU 소편은 그림 4_14에서 보는바와 같 
이 가장 높은 옹근수와 류동소수점 SPEC 95 성능을 주지만 성능박자속도에서 경쟁자와의 
간격 에 는 비 례하지 않는다. 



그림 4-15. Digital 의 Alpha21 164처 리 기 구성 방식 

미소소편고밀도 RISC 소편은 0.35 -um CMOS 기술에서 밀집도가 가장 높은 10 x 백만 
개 수의 3극소자를 가지 고 있 다. 그러 나 2 X 백 만이하는 RISC 론리 부분에 배 당되 여 있 고 나 
머지 8 x 백만은 FD 캐쉬와 2차캐쉬를 포함하는 소편내장기억기를 위해 배당되여 있다. 
론리적배 당은 대부분의 높은 급처리기들보다 낮다. 

Pentium Pro 는 4.4 x 백 만을 CISC 론리 에 배 당하였으며 그 나머지 에 5.5 x 백 만개의 3극 
소자를 배 당하였다. 

1997표준에 기초하여 CPUcore 는 전형적으로 2~4 x 백만개의 3극소자를 론리부분에 배 
당하였 으며 1~6백 만개 의 3극소자를 소편기 억 기 에 배 당하였 다. 

캐쉬계층 캐쉬방책은 Digital 이 소편우에 2차캐쉬계층을 가진 극소형처 러기 만으로 묶 
어 놓은데서 세운 령역이다. 개개의 8- kbyte 의 명령캐쉬와 자료캐쉬는 500 MHz 박자속도에 
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서 1주기안에 접근될수 있다. 

낮은 96-KB 2차캐쉬 는 외 부캐쉬보다 고속접 근을 제 공한다. 매 몰형외 부캐쉬조종에 
따라 대 표적 인 21164체 계 는 외 부준위 3차캐쉬 를 크기 에 서 1Mb 에 서 64MB 까지 지 원 한다. 
감소된 캐 쉬접 근시 간은 소편성 능향상을 일 정하게 지 원한다. 

자료경 로폭 옹근수와 류동소수점 실 행 단위 는 매 개 가 64b 폭이 다. 명 령 관흐름은 매 단 
계에서 128b 폭이다. 

자료를 2차캐쉬에로 보내거나 받는 모선은 128b 폭인데 1차캐쉬를 채우는 모선들을 
포함한다. 결 과 비직 소편 3차캐 쉬 혹은 기 억 기 에 접 근하는것 은 Alpha 처 리 기 묶음에 서 128 
자료 pin 을 통하여 수행된다. 

기능적관흐름 명령관흐름은 7개의 기능단들로 이루어 진다. 즉 명령 F/D 단，두개 옹 
근수관흐름，두개 류동소수점관흐름，기 억기주소이행단 (MATU) 과 그림 4-15 에서 본 
CBOX 이 다. 

이 판흐름토막들은 다음과 갈은 특정기 능들을 수행한다. 

• 4-단계 명 령 꺼 내 기/복호 (F/D) 단은 꺼 내 기 , 복호화명 령, 발행 명 령 그리 고 은페 명 령 
을 이룬 다. 그것은 BHT (분리 리력 표, branch history table) 와 명령 TLB (translation 
lookaside buffer) 을 포함하는 I- 캐쉬를 가지고 동작함으로써 새치기，제외 그리고 
분기예 측과제 를 조종한다. I- 캐쉬 는 단계 SO 에 서 접 근되 며 옹근수등록기파일 (IRF) 
혹은 류동소수점 등록기파일의 접 근은 S3 단계 에 서 수행 된 다. 

• 두개 옹근수실행관흐름은 매개가 3개의 관흐름단계를 가지며 모든 옹근수 RISC 
명령들을 실행하고 적재/기억，분기 그리고 조종명령을 조종한다. 여기서 류동소 
수점결 과에 의해 결정 된 조건적 분기 는 제 외한다. 두개 옹근수관은 같은 IRF 를 
리용한다. 옹근수곱하기 는 어 느 하나의 옹근수관흐름에 불인 다. 총체 적 으로 옹근 
수 RISC 명 령 들은 7개 의 관흐름단계 에 서 실 행 한다. 

• 두개 의 4-단계 류동소수점관흐름이 있 다: 하나는 류동소수점 나누기 에 불은 류동 
소수점더 하기관이고 다른 하나는 류동소수점곱하기관이 다. 전체 적 으로 매 류동 
소수점명 령은 명 령관흐름을 통해 흐르는 9개의 주기를 가진다. 

• 21164는 8-단계기 억기접근관흐름을 가지 는데 기 억기주소이행 을 수행 하고 적재/ 
기 억 과 기 억 기 장벽 명 령 을 실 행 한다. 이 관흐름은 자료캐 쉬 ， 2차캐 쉬 , MATY 그 
리 고 기 억 기접 근충돌을 조종하고 캐쉬일관성규약을 수행하는 CBOX 를 가지 고 
동작한다. 

비 차단 캐 쉬 접 근 D- 캐 쉬 에 서 자료를 적 재 하는데 2주기 걸 러 며 2차캐 쉬 에 서 자료를 
접근하는데 4이상의 주기가 걸린다. 단계 S10 와 S11 에서 2차캐쉬 로부터 32B 의 캐쉬행을 
가진 자료/명 령 캐 쉬 를 채 우는데 는 보충적 으로 2주기 가 걸 린 다. 총체 적 으로 읽 기/기 억 명 령 
은 전체 명 령관흐름을 통하여 흐르는데 6~12주기 가 걸릴 수 있 다. 관흐름은 캐 쉬비 적 중 
(miss) 에서 멎지 않는다. 관흐름은 오직 자료의존성이 명령들사이에 존재할 때에만 멎는 
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다. 매 관흐름주기는 500 MHz 박자인 경우 2 ns 이다. 


명령패쉬읽기 

완충기지령, 북호분기, 다음 PC 결정 
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류동소수점등록기파일읽기 
一 첫번째 류동소수점관흐름단계 
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一 가상주소게산, 자료캐쉬 읽기 시작 
r 자료애쉬 읽 기물, 가상주소를 DTB 로 이 행 

| S 4 | S 5 | S 6 | S 7 | S 8 | S 9 | S 10 |SllH 기억기접근 

1 * * * * ■■ ■ 】 1 2 ' L— J 관흐름 


(MATU) 


자료개쉬에 쓰: 

2차케쉬태그접근시작 
2차개 쉬태그접근끝 
2차매쉬자료접근시작 
2차개쉬자료접근끝 


(CBOX) 





ᄂ-자료떼 


그림 4-16. 두쌍의 옹근수관흐름，두쌍의 류동소수점 관흐름 그리 고 기 억 기 접 근동작을 
위한 6~12관흐름단계 를 가전 21164명 령관흐름 
(IRF: 옹근수등록기 파일, FPRF: 류동소수점 등록기 파일， IM: 옹근수곱하기， 

FPD: 류동소수점 나누기 , DTB: 자료이 행 완충기 , MATU: 기 억 기 주소이 행 단， 

CBOX: 캐 쉬 조종/모선 대 면 부 


의존형명령은 단계 S 11 후에 즉시 실행하기 시작할수 있다. 

MATU 와 CBOX 는 모든 캐쉬계층준위에서 비차단방식의 캐쉬비적중을 조종한다. 
이 비차단설계우점은 


(1) 단번에 한개이상의 접근을 시작함으로써 쓸모 있는 읽기병렬성을 개척한다. 

(2) 6개 까지의 읽기 가 재순서화되도록 한다. 이 읽기재순서화는 쏘프트웨 어 관흐름과 
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자료미 리 꺼 내 기 가능성 을 준다. 


다른 성능특징 21164는 동적분기예 측을 실행 하기 위하여 분기리 력표 BHT 를 러 용한 
다. BHT 는 매 분기명 령의 과거 두개 실행결과를 기 록하는 20482 b 입구자료를 자진다. 

RF 에는 이름교체등록기가 없다. 그러나 8개 류동소수점등록기들은 동적실행을 지원 
하기 위하여 이 름이 교체 될 수 있 다. 

류동소수점 성 능에 의해 21164는 18.3 SPEC 95/ FP 률로 되 였 으며 1997년 에 HP PA -8000 
와 묶었다. 그 옹근수성능은 역시 그림 4-14 에서 보여 준바와 같이 갈은 성능에 귀착된다. 

499- pin 묶음과 함께 Alpha 소편은 소편외 장자료전송을 위한 128 B 자료경 로를 가진다. 

기억기대역너비는 400 MB / S 로 평가되였다. 에네르기소비는 21064의 50 W 로부터 현재 21164 
의 25 W 로 감소되였는데 주로 CMOS 소편에 2.9 V 전력공급을 러용하였다. 

명 령 TLB 와 자료 TLB 에 서 48개 입 력 자료들은 주소이 행 시 간을 짧게 하도록 도와 
준다. 

Alpha 소편들은 PCs 에서 리용하는것은 값이 높으므로 주로 워크스테 이션에서 리용되 
였 다. 


4. 4. 2. Intel Pentium Pro 처리기 


Intel Pentium Pro 는 x 86 CISC 명 령 들을 직 접 실 행 하지 만 내 부적 으로 소편은 그림 4- 
17에 서 보여 준 분리 형 CISC / RISC 구성 방식 을 수행한다. 

앞단에서 3개의 x 86 명령들은 순서이행기계에 의해 병렬로 복호화될수 있다. 이 복호 
기 들은 x 86 명 령 들을 uops 로 표기한 5개 의 RISC 계 렬 마이 크로동작으로 넘 긴다. 

두개의 단순복호기들은 한개의 uop 를 생성하고 일반복호기들은 복합명 령을 l ~4 uo P 로 
전환한다. 

뒤 단에 서 초스칼라실 행 시 간은 RISC 핵 심 부의 5개 실 행 단에 서 5개 의 uops 를 순서 가 없 
이 실 행할수 있 다. 

P 6 은 5개의 실행단 즉 두개의 옹근수 ALUs 와 두개의 적재/기억 단, 한개 의 류동소수 
점단을 가전다. 이 uop 들은 먼저 40입 력 자료기록완충기 ( ROB ) 로 통과하여 요구되는 연산 
수들 이 쓸모 있 을 때 까지 기 억한다. 

ROB 로부터 uop 들은 20입력자료예약장소로 발행되며 요구되는 실행이 없을 때까지 
그것들을 정돈한다. 

이 설 계 는 uop 가 순서 없 이 실 행 되 도록 하며 병 렬 실 행 자원 들을 쉽 게 리 용하도록 
한다. 


계 층기 억기 Intel 은 CPU 소편을 가진 같은 묶음에 설치한 전용2차캐쉬소편을 설계하 
였다. CPU 와 캐 쉬 소편들사이 직 접 접 속이 존재한다. 

2차캐쉬소편은 256 KB 혹은 512 KB 를 가질수 있다. 

이 2차캐쉬 는 주기당 200 MHz 박자로 64 bit 를 넘 겨 준다. 소편 내 장캐쉬 들은 16 KB 로 
되며 명 령을 위해 8 KB , 그러 고 자료를 위해 8 KB 로 갈라 진다. 
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그림 4-17. Pentium Pro 처 리 기 의 분리 형 CISC/RISC 구성 방식 


캐쉬 계 층은 또한 비차단캐쉬접 근을 지 원하기 위해 설 계된 다. 두 준위사이 캐쉬통행 
은 뒤 단 모선 에 서 일 어 나며 앞단모선대 역 너 비 를 외 부기 억 과 입 구/출구접 근에 리 용되 도 
록 한다. 


순서 앞단 ( In_Order Front End ) P 6 처 리 기 에서 기 능블로크들을 그림 4_18에 서 보여 
준 다. 

순서앞단은 그림 의 웃부분에 서 보여 준다. 이 블로크들의 기 능을 아래 와 같이 서 
술한다. 

• 명 령 꺼 내 기단 ( IFU ) I - 캐 쉬 를 포함하여 들어 오는 x 86 명 령 들을 유지한다. 그것 은 
명령의 캐쉬행을 단번에 명령복호기(正))에 공급한다. 마이크로명령순서결정장치 
( MIS ) 는 매 복합명 령 당 uop 의 순서발생 을 조절 한다. 

• 분기목표완충기 ( BTB ) 분기리력에 기초한 분기목표주소를 예측함으로써 다음명 
령 을 꺼 낸다. 512입 력 자료들에 대 하여 2-준위적 응분기 도식은 련상기 억기를 리용 
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하여 수행되였다. 분기예측오유는 투기적실행을 가진 최소값으로 감소된다. 

• 등록기 가명표 ( RAT ) 프로그람작성 자가 눈에 보이 는 등록기참조를 동작시 간에 
진행하는 내부물리적등록기들로 다시 고쳐 짓는다. Uop 들은 RAT 넘기기에 의해 
뒤단 RISC 핵 심 부로 보낸 다. 

비순서핵 심 ( Out _ of_Order Core ) RISC Core 는 그림 4_18에 서 보여 준다. 

RAT 는 uop 들을 각이한 블로크도식 아래 에서 각이한 장소로 보낸다. 

한 장소는 RS 이 고 다른 장소는 ROB 이 다. 이 두 기구의 기능을 아래 에 서 술한다. 

• ROB 는 재순서 화가 진행 되 고 원천프로그람순서 가 기 억되 는 장소이 다. 프로그람 
순서에서 완료된 명령을 뽑아 내야 하기때문에 그것들의 원래 순서를 ROB 에 기 
억 해 야 한다. 완료된 uop 들이 실 행단에 서 돌아 올 때 오른쪽 장소에 뽑아 놓기 전 
에 그것 이 속하는 ROB 로 검사한다. 




AGU 순고성 납 

MIS -Mia* 러 령 士서기 

BEU 교선대면草단 

MIU 기 먹비대라 斗 

I3TU 善 H 복표다총기 

MOB 기석기 대슨서완충기 

DCU4i 새쉬 단 

RAT 기썩키 4 명표 

FEU 후 辱 소수접신행 한 

ROU 1 순서완주기 

ID 엄령복효기 

RRT 警아대기 f 목거 4 입 

IEU 옴수신며단 

RS 에 막：&主 

ᄈ mn? 

12 대* 1 쉬 


그림 4-18. 동적 실 행 을 위 한 Pentium Pro 처 리 기 마이 크로구성 방식 
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RS 는 20 개 입력자료들을 가지며 매개는 실행을 위해 대기하는 한개의 uop 를 유 
지 한다. RS 는 first _ in , first _ out ( FTFO ) 대 기 가 아니 다. 그것 은 옹근수，류동소수점 
그리 고 기 발상태 를 조종할수 있는데 어 느것 이 나 다 renaminh 을 허 용한다. RS 는 
오른쪽에 그려 진 5개의 포구를 자진다. 

포구 ◦는 옹근수실 행단，류동소수점 가산기，옹근수나누기，류동소수점 나누기 , 류 
동소수점 곱하기 와 밀 기장치 에 붙인 다. 포구 2, 3, 4는 기 억 기접 근에 쓴다. 포구 2 
는 주소발생 단 ( AGL ) 을 통하여 적 재주소를 발생하며 포구 3과 4는 기 억주소를 
발생 한다. 


토막화된 초관흐름설 계 Pentium Pro 는 최 대 14개 처리단계 를 가지 도륵 하기 위해 관 
흐름화된다. 이것을 그림 4-19 에서 보여 준다. 



그림 4-19. Pentium Pro 에 서 14 개 관흐름단계 들의 토막화 

RS 동작의 융통성 에 조화되 도록 하기 위해 관흐름은 고정 된 단계수를 가지 지 않지 만 
명 령완료의 최 대박자주기수는 12로 한다. 

관흐름단계 들은 순서 앞단 (8 개 I 단계 )，비순서 RISC core (3 개 O 단계 )와 순서뽑아놓기 
( Retirement )(3 개 R 단계)에서 처리기자원에 대응하는 3개의 토막으로 나눈다. 

관흐름을 통한 uops 의 흐름은 왼쪽에서 오른쪽으로 그려 진다. 

토막들사이 의 자르기 들은 RS 혹은 ROB 자원들을 일정작성 기하기 위한 대 기효과를 
보여 준다. 단계의 동작들은 왼쪽에서 오른쪽으로 진행되며 아래에서 구체적으로 서술한 
다. 

관흐름단계 18은 일부 마이 크로동작을 위한 단계 01과 중복될 수 있 다. 류사하게 중 
복된 동작은 단계 03과 단계 R 1 사이에서 일어 날수 있다. 그것은 명령이 통과하여야 하 
는 최 소단계 수가 12주기 이기 때 문이 다. 14개 단계 를 단계 적 으로 3개 의 짧은 관흐름으로 
토막화하는것 은 토막들사이 의 어 떤 완충트랜 잭 션을 제 공한다. 

그것은 긴 관흐름을 러용할 때 생기는 심한 벌칙을 피할수 있게 한다. 

• 순서복호/이행 다음 명령지적자 ( IP ) 는 단계 II 에서 갈라 진다. 여기서 BTB 는 리 
력 에 기초하여 분기방향을 예측한다. 캐쉬접근과 명 령부호화는 매개가 2.5 박자주 
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기 로 갈라 지며 3개 복호기와 명 령정 렬을 포함한다. 등록기이 름교체단계는 가상 
등록기 를 물리 등록기 로 넘 기 는데 쓰인 다. 마지 막단계 (18) 도 RS 를 쓰기 위 한것 이 
다. 0!단계와 중복될수 있다. 

• 비 순서 5- 통로실 행 단계 (기과 0 2 은 RS 이 동을 위한것 이 다. 대 기 주기 에 따라 연산 
수가 쉽게 리용가능하면 uop 는 이 목적을 위해 1주기로만 감소할수 있다. 세번 
째 단계 는 사실상 대부분의 마크로동작들이 1주기실행 을 위한것 이 다. 기 억기 혹 
은 류동소수점실 행 들은 많은 주기 들을 걸 처 야 한다. 기 억 기접 근은 완전히 다른 
관흐름화된 동작들이며 그림 4-19 에서는 보여 주지 않는다. 

• 순서뽑아놓기 뽑아놓기처리는 갈은 X 86 명령과 관련된 모든 uop 들을 한개 묶음 
으로 뽑아 놓게 한다. 더 우기 원래 프로그람순서 를 복귀시 킨다. 결과는 일부 uops 
들을 RS 에서 대 기하도록 하기 위해 RS 로 거 꾸로 흘러 가게 해 야 한다. 이것은 
이 모든것들을 정 확히 수행 하는데 3주기 가 걸 리 기 때 문이 다. 

동적 실 행 Pentium Pro 구성 방식 의 가장 중요한 특징 은 이 전의 X 86 계 렬 과의 2중적 인 
호환성 이 다. 

소편은 사용자코드에서 고수준병렬성을 개발하기 위하여 동적실행을 해 야 한다. 

방법 은 프로그람흐름예측에 의한 명 령실행 에서의 순서화와 우선권에서의 투기적 인 
실행명 령의 최 량조정을 달성하는것 이 다. 

투기실행 은 표준실행순서 에서 앞에 있는 실행 을 먼저 출발시 킴 으로써 이 루어 진다. 

이 투기 적 인 결과는 프로그람이 예 측방향으로 흐르지 않는다면 버 릴수 있기때 문에 
ROB 에 일시적으로 기억된다. 

뽑아놓기동안에 이 투기적인 결과들을 일시적인 기억으로부터 영구적인 구성방식상 
태에 기록해 둔다. 


다중처러지원 4개의 P 6 CPU 5 와 고속 I / O 통로는 성능을 잃음이 없이 같은 앞단 P 6 모 
선과 련결될수 있다. 사실상 4- CPU 4 중 SHV 판들은 지금 상업적생산물로서 가치가 있다. 
이 P 6 모선은 캐쉬일관성규약과 붙혀 진 처 리기들사이 에 고속동기 화를 지 원한다. 

더우기 모선은 사용자가 I/O 혹은 망대 면부장치 에 붙이 는 extra OEM 슬로트를 제 
공한다. 


4. 5. Post-RISC, 다매체와 VLIW 

이 절에서는 극소형처리기의 최근 발전에 대하여 고찰한다. 

특히 규소기술의 련속적 인 발전과 명 령모임구성 방식을 조사한다. 

또한 최근의 미소소편에 내장한 새로운 비 RISC 구성방식의 특징을 검토한다. WWW 
와 Internet 응용을 지원하기 위 하여 현재극소형 처리기에 내장된 다매체 곽장을 고찰한다. 

결과 매우 높은 ILP 를 개 발할수 있는 미 래의 극소형처 리기를 제 작하기 위한 VLIW 
구성방식의 가능성을 평가한다. 
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4. 5. 1 . Post-RISC 처리기의 특징 

상품화된 극소형처리기들에 부가되는 보다 많은 성능특징들에는 반대되는 경향이 있 
다. 일부 부가된 특징들은 아직 RISC 형 이지만 대부분이 비 RISC 지어는 CISC 형 이다. 

Michigan state 종합대학에 있는 연구그룹 [108] 은 이 부가된 비 RISC 특징들을 Post - 
RISC 라고 부론다. 

최근성능특징 기술이 die 크기와 3 극소자밀도를 높이는데로 발전하는데 따라 RISC 처 
리기설계가들은 소편공간을 유효하게 리용하기 위한 방식을 고찰하기 시작하였다. 

아래 에 주요미 소소편설 계 가들이 리용하거 나 Michigan state 그룹을 포함한 연구자들이 
주목한 방법 들을 렬 거하였 다. 

• 등록기 들을 더 첨 부하고 다매 체 를 위한 CPU 극소형 구성 방식 을 수정 

• 처 리 기와 같이 빨리 동작하는 소편내 장캐쉬확대 

• 초스칼라 혹은 VLIW 실 행 을 위한 추가적 인 기 능단들을 러 용 

• 류동소수점연산을 가속시 키 기 위하여 비직결지원리용 

• 관흐름깊이를 증가시키거나 혹은 토막화된 관흐름들사이의 완충화 

• 적응분기예측과 회복도식 

• 프로그람비순서 화동적실행 은 자료구동에 기 초 

• 앞단에 서 하드웨 어코드이행 지원첨 가 

• 분기사건앞에 투기실행을 놓는다. 


표 4-6 _ Specint Int-92 성능결과에서 경향 


회사 

낡은 처러기 

Spec 

Int-92 

새로운 

처리기 

Spec 

Int-92 

박자속도에서 

증가률 

증가률 

Spec Int-92 

DEC 

21064A/ 

300 MHz 

220 

21164 / 

333 MHz 

400 

11% 

82% 

HP 

PA-7150/ 

125 MHz 

136 

PA-8000/ 

133 MHz 

360 

6% 

164% 

IBM 

PPC-6-1/ 

80 MHz 

91 

PPC-604 / 

133 MHz 

176 

66% 

93% 

Intel 

Pentium 

166MHz 

198 

Pentium Pro/ 

200 MHz 

320 

20% 

62% 

Sun 

Sparc/125 

MHz 

131 

UltraSPARC/ 

200 MHz 

200 

12% 

52% 

MIPS 

R-4400/ 

200 MHz 

141 

R-10000/ 200 

MHz 

300 

0% 

113% 
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많은 기능적특징들이 이 목록에 첨부될수 있다. 

매 미소소편계렬들이 가장 새로운 처리기를 도입하는 과정에 Michigan state 그룹에서 
는 Specint -92 와 박자속도사이의 관계 에서 흥미 있는 경향성 을 관측하였다. 표 4_6에서 보 
여 준바와 같이 Specint -92 에 의 해 측정 된 성 능은 박자속도보다 더 빨리 증가한다. 현재 
처리기를 리력자료를 리용하는 먼저것들과 비교하여야 하기때문에 그룹은 Specint -92 를 
선택 하였 다. 

Post-RISC 특징 들 

Michigan state 그롭은 다음과 같은 Post-RISC 특징 들을 제 기 하였 는데 그림 4-20 에 관 
흐름설계로 보여 준다. 

(1) ISA 는 더 증대되 였 다. 성 능을 높이 기 위해 일 부 비 RISC 명 령 들이 도입되 였 다. 
가장 중요한 변화는 명 령들을 순서화하는 지능를파일러리용과 다중발행들의 합 
법 성 을 검 사하는 하드웨 어 리 용에 서 나타났다. 

(2) Post-RISC 처 러기 들은 주기당 많은 명 령 들을 발행하는 령역 에서 아주 강하다. 이 
것 은 명 령 재순서 화를 동적 으로 수행하는 하드웨 어 를 리용함으로써 초보적 으로 
실현된다. 높은 ILP 는 명 령들을 프로그람비순서로 실행 함으로써 얻을수 있다. 

(3) 비순서화실행은 계산에서 새로운 개념은 아니지만 (그것은 20년동안 IBM 과 
CDC 를퓨터 에서 존재하였다.) 단일소편실행 에 대 해서는 혁 신적 이 다. 결과는 자료 
흐름실행 과 비슷한 실행핵 심부를 가진 RISC ISA 이 다. 

그러나 이 처리기들은 아직 대부분의 RISC 개념을 쓰고 있다. 

실례 로 이 처 리기들의 실행단은 단일주기 에서 대부분의 명 령들을 완성하도록 최 량화 
되였다. 


(4) Post-RISC 에서 새로운 구성요소는 그것의 결과를 캐쉬에서 명령과 함께 기억하 
는 사전복호단，출구와 반종속을 제 거하는 이 름교체등록기 들의 러용，명 령 재순서 
완충기 그리 고 뽑아놓기단을 포함한다. 

Michigan state Post-RISC 기 계 Michigan state 그롭은 일부 좋은 특징 들을 우에서 본 
CPU 설 계 와 합쳐 개 념 적 Post-RISC 처 리 기 모형 을 제 기 하였 다. 다시 말하면 이 것 은 우에 서 
토론된 특징 들의 혼합이다. 이 관흐름모형 을 그림 4-20 에 서 보여 준다. 

실 행단전과 후에 사전복호, 재순서 그리 고 완성완충기 를 리용하는것 은 자료흐름의 
견해 에 의 해 활기 를 띠 게 되 였 다. 그러 나 Michigan state 그룹은 이 설계 가 자료구동형 기 
계 들이 범 하기 쉬 운 오유를 피할수 있 다고 주장한다. 

상품화된 처리기들에서 Post-RISC 특징 더 많은 Post-RISC 특징을 가진 차수를 증가 
시 켜서 Digital Alpha 21164는 최소의 RISC 설계를 선택 하였으며 다음절에서 연구된바와 
같이 순서 명 령 만을 실 행하였 다. 
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그림 4-20. Michigan state 의 Post-RISC 처 러 기 에 서 개 념 적 관흐름구성 방식 


P 6 은 우에서 고찰한 거의 모든 특징들을 가짐으로써 가장 적극적 인 변화를 가져 왔 
다. 나머지 4개 처리기들은 두 극단들사이에 있다. 


Ultral SPARC 계렬 Sun Ultra SPARC 는 일반적으로 비순서실행을 허용하지 않는다. 그 
러나 일정한 다중주기명령들은 비순서명령을 뽑아 내는것이 허용된다. 

명 령완충화는 두개 가상관흐름사이 에 서 계 단적 으로 보장된 다. 

두 관흐름의 어느 하나가 멎으면 다른 하나는 P 6 에서 요와 ROB 의 완충역할과 류 
사하게 완충기를 조사할수 있다. 

Ultra SPARC 처 리 기들은 등록기 이 름교체 에 대 한 지 원이 없 이 등록기창문을 러 용한다. 
이 방법 역 시 비순서실 행 으로부터 소편을 막는다(보호한다.). Ultra SPARC 강화는 등록기 
창, 변수크기페지，고속함정 ( ttap ) 과 새치기조종，고속블로크기억기이동명령 그리고 그라픽 
스조작명 령 모임，다매 체응용을 지 원하기 위한 VIS 명 령모임가운데 서 최 고속문맥 절 환에 달 
려 있다. 

Ultra SPARC 계렬에서 이 모든 좋은 특징들은 저비용탁상용 PC 응용보다는 높은급워크 
스테 이션와 봉사기응용을 개선하는데 의의가 있다. 


IMB Power PC 604 이것은 4-통로초스칼라 RISC 설계 이 다. Michigan state 그롭은 이 
CPU 소편을 원래 RISC 특징 에 대 응하여 세번째 로 분류하였 다. 

그것은 재 순서 완중기에서 16개까지의 명령을 재 순서화하는것을 지원 한다. 604는 28 
개 이 름교체완충기 를 리용하는데 8개 는 분기단에 서 조건등록기 를 지 원하며 12개 는 옹근 
수등록기 를 지 원 하고 12개 는 옹근수등록기파일 을 지 원하고 8개 는 류동소수점등록기파일 
을 지 원한다. 또한 많은 예 약장소들은 3개의 옹근수단, 적재/기억 단，류동소수점단을 포함 
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하는 기능단들의 입구포구에서 리용할수 있다. 보충적으로 동적분기 예측과 투기실행 이 
지원된다. 

604에서 독특한 특징은 분기계수명 령이며 계수에 기초한 고리를 수행할수 있다. 

MIPS R 10000 CPU 는 몇개 명령역에서 우에서 본 3가지 미소소편보다 적극적이다. 
그것은 32개까지의 명령을 비순서로 실행할수 있다. 옹근수연산을 위한 32개 이름교체등 
록기 와 류동소수점연산을 위 한 또 다른 32개 이 름교체등록기 가 있 다. 

특수한 특징 들은 오유예 측벌칙 을 최 소화하고 투기실행 을 촉진시 키 기 위하여 shadow 
map 와 분기 resume 캐 쉬 를 리 용한다. 

옹근수와 류동소수점명 령 을 위한 64개 매 개의 등록기파일의 크기는 성능을 높이 기 
위한 또 다른 방법 이다. 

R 1000 은 SGI/MIPS 워크스테 이션과 SMP 봉사기 에 대한 요구에 따라 그라픽스와 초고 
속콤퓨터리용을 지 원하는데 서 강한 특성 을 가진다. 

HP PA -8000 비 순서 실행 에 의 하여 이 것은 56개 입 력 자료명 령재순서 완충기 ( IRB ) 를 리 
용하는 가장 적 극적 인 설 계 이 다. 

여 기서 28개는 산수연산을 위한것 이 고 28개는 기 억기 연산을 위한것 이 다. PA -8000 성 
능은 대체로 Alpha 21164성능파 비교된다. 

사실상 PA -8000 은 3.9 X 백만개의 3극소자를 론리소편에 배당하고 두번째 부류만 
Pentium Pro CPU 소편에 내 장하는데 4.5 X 백 만은 론리 구역 밖에, 5.5 X 백만개의 3극소자는 소 
편에 배당된다. 

비 교하면 세번째곳에 론리 소편에 대 한 2.4 x 백 만개 를 리용한 R 10000 이 있다. 
Power PC 604와 Ultra SPARC 는 론리 소편에 2 x 백 만개 의 3극소자를 리용하였고 Alpha 
는 론러 소편 에 1.8 X 백 만개 3극소자만을 리용하고 8 x 백 만개 이 상은 소편 내 장기 억 기 에 리 
용하였 다. 

이 론리소편밀도는 새 로운 혹은 추가된 Post-RISC 특징 량에 대 한 좋은 지적자인데 역 
시 Michigan state 가 정돈한 6개의 처리기와 조화된다. 

4. 5. 2. 다매체확장 

Internet , 다매 체 와 WWW 리 용은 현재 극소형 처 러 기 의 확장을 시 작하게 하였 다. 그 방 
법 은 다매 체 성 능을 의 미 있게 개 선하는 명 령모임 을 확장하는것 이 다. 

방법은 MPEG 부호화와 복호화，음향합성，화상처 리 와 모뎀 등과 같은 시 간요구함 
수를 추가하기 위하여 die 령역 에서의 작은 증가로 현재 CPU 론러 를 조금 변경시키는 
것이다. 

매체처 리요구 다매 체기능은 시 간에 따라 증가한다. 오늘날의 탁상용콤퓨터 는 계산도 
구외 에 실 시 간통신과 같이 다매 체 정 보접 근을 지 원 하기 위해 요구된 다. 

다매체는 모두 수자적으로 표현된 Visual 정보, 음성정보，문자정보와 감각정보의 통 
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합을 의 미 한다. 

Hewlet 卜 Packard 연구소의 Ruby Lee 가 관찰한바와 같이 매체 처 리는 성능에서 량적 인 
비 약과 앞으로의 콤퓨터체계의 능력을 요구함으로써 매체처 러병 렬성을 개척하기 위한 충 
분한 계기로 된다. 아래에 음성, 영상, 화상，화소처리，그라픽스실감묘사 그러고 변환문 
제를 고찰한다. 

• 음성/영 상처 리 는 16b 혹은 그이하의 정 확성 을 가지 고 시 간-의 존형자료를 취 급한 
다. 더 하기 -축적 기 는 기 본연산이 다. 

• 많은 자료병 렬 성 을 화소, 영 상, 화상 그리 고 그라픽 스실 감묘사프로그람에 존재한 
다. 자료는 작은 옹근수들(영상/화상에 대하여 8~12b) 이며 중간결과들에 대해서 
는 1的이면 충분하다. 

• 일반옹근수연산들은 더하기, 덜기, 곱하기척도 그리고 간단한 나누기를 포함한다. 
기억기-접근패턴들은 흔히 영상，화상 그리고 그라픽스연산들에서 예측할수 있 
다. 

• 화소 혹은 선호처 리 는 고리벡 토르화， SIMD 병 렬성 그리 고 작은 옹근수들의 
단어묶음화를 요구하며 모두 부분단어병 렬성 으로 이 끌어 간다. 

• 통신은 계산 그자체보다 더 많은 계산을 요구한다. 이것은 저 비용극소형처 리기 
에 병 렬 처 리기술을 적 용하기 위 한 새 로운 길 을 열 어 놓는다. 

부분단어 ( Subword ) SIMD / MIMD 병 렬 성 

다매 체확장은 단일 명 령，다중자료 (SIMD) 부분단어병 렬 성 이 다. 

64b ALU 를 취 하고 자리올림사슬을 여 러 가지 점 에서 차단되게 함으로써 본질적 으로 
같은 량의 론러는 두개의 32b 연산， 4 개의 1 的연산 혹은 8 개의 8b 연산들을 모두 병렬로 
수행할수 있 다. 

하나의 복잡성 은 다중자리 올림 비 트들을 쓸수 없 다는것 이 다. 

그러 나 다행 히 도 대 부분의 신호처 리연산들은 포화산수에 서 리 득을 보았다. 자리올림 
비 트를 회 전시 키 고 설정하는것 대 신에 포화산수는 최 소 혹은 최 대 값에 서 결과를 설정한다. 

대 부분의 다매 체확장은 포화산수를 선택 적 으로 첨 부한다. 

다른 일 반보충은 곱하기-더 하기 , 자료요소묶음화와 묶음해 제화 등에 대 한 명 령 들이 
다. 그림 4-21 에 서 우리 는 x86 구성 방식 을 확장하기 위 한 Intel 의 MMX (다매 체 확장)기 술에 
서 쓰인 자료형을 보여 준다. 

3 개 의 묶음 혹은 압축자료형 을 그림 4-21 근)에 서 보여 준 64b 4 배 단어 로 정 의한다. 

1) 부분은 8 묶음 byte 를 보여 주는데 매개 는 8b 이 고 한개의 64b 4 배단어 로 한다. 1_) 
부분은 64bit 를 4 묶음단어로 나누는것을 보여 주는데 매개는 16b 이다. 류사하게 n) 부분 
은 64b 에 서 2 묶음 2 배단어 를 보여 준다. 매 묶음요소는 8b 혹은 16b 혹은 32b 옹근수를 
취할수 있다. 

이 것 들은 다매 체 계 산에 서 흔히 쓰는 자료형 들이다. 

공업 적확장 Hewlett-Packard 는 먼저 MAX 확장을 정 확성 구성 방식 에 추가하는것 이지 만 
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HP 의 명 령 들은 아주 간단하다. Sun 은 Ultra SPARC 에 서 실 행 된 VIS (Visual Instruction Set ) 
에 서 가장 포괄적 인 확장모임 을 제 공한다. Sun 의 확장들은 단순 SIMD 동작외 에 화소거리 
와 같은 상대적인 복합명령들을 포함한다. 

가장 널 리 토론된 확장모임 은 Intel 의 MMX 이 며 Pentium P 55 C 와 Pentium -2( Klamath ) 처 
리 기 들에 서 출현하였 다. 전체 적 으로 57 MMX 명 령 들은 x 86 명 령 구성 방식 ( IA ) 에 첨 가되 였 다. 

더구나 AMD 와 Cyrix 두가지는 MMX - 무모순확장을 제공할것 이 다. Intel 은 MMX - 향상 
코드개선이 MPEG 영상복호화에 대해 4배 더 좋다는것을 평가하였다. 



1) 8묶음 Byte 

63_48 47_32 31_1615_0 

I I I I I 


L) 4묶음 Byte 


63 32 31 0 



c) 2묶음두제곱단어 


5) ▲배단어 


그림 4-21. Intel x86 극소형처 리기 에 대한 MMX 자료형 

를파일 러는 MMX 코드에서 락관할수 없으며 프로그람작성 자들은 그 우점을 실현하기 
위 하여 코드를 손으로 써 야 한다. 

Silicon 그라픽스는 그것의 MIPS - V 처 리기를 위한 MDMX 확장을 계 획하였다. 

Digital 은 그것의 Alpha 소편에 대 한 MVI 확장을 계 획하였다. 

초스칼라 ALUs 의 분할 지난 시기에 초스칼라처러기들은 처리기에서 ALUs 의 다중 
성 에 비해 MIMD 병 렬성 을 개 발하는데 주로 러 용되 였 다. 보다 적 은 하드웨 어변경 으로 같 
은 ALU 자원들이 SIMD 병 렬성 을 개척 하기 위해 리용되 였다. 이것은 주어 진 초스칼라처 
리기에서 두개의 64 b ALUs 로 분할함으로써 론증된다(그림 4-22). 

매 64 b ALU 는 4개의 16 b ALUs 로 분할되는데 그것들은 병렬로 동작할수 있다. 총체 
적 으로 8-통로 16 b 산수연산들은 SIMD lock 단계 에 서 주기 당 수행 될 수 있 다. 연산수틀은 
64 b 다매체 등록기 들로부터 나오는데 매 개는 4개의 1的 단어의 자료요소를 가진다. 

총체적으로 16개 자료요소들은 8개 16 b ALU 에 의해 병 렬로 가공처 리된다. 실례 로 
다음과 같은 8개의 16 b 옹근수더하기들은 모든 연산수들이 이미 등록기들에 적재되여 있 
다면 1주기동안에 수행된다. 

8개 우연-접 근 MMX 등록기 들은 보정명 령 들에 의한 독점 적 인 리용을 위해 Pentium 
처리기들에 내장되였다. 


xi + yi = xi , i = l , 2, 3, 4 (4.2) 

yj +x • 卜 yj, j=5, 6, 7, 8 (4.3) 
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64-b GPR's 




묶음화된 곱하기-더하기연산 그림 4-23 에 자주 쓰이는 MMX 연산들중에서 어느 하 
나로 어떻게 수행하는가를 보여 준다. 

방법 은 곱하기-더 하기 를 16 b 단어 에서 32 b 두제 곱단어 들로 묶는것 이 다. 4개 의 16 b 곱 
하기 는 묶음두제 곱단어 에서 4개 32 b 중간결과들을 얻 어 내 기 위 해 먼저 진행된다. 

두개 32 b 더 하기는 한개 64 b MMX 등록기 에서 묶어 진 두개의 두제곱단어 들의 32 b 
마지 막결과를 얻 기 위해 그다음에 진행 된다. 

6개 산수연산들의 전체 렬은 매몰형고속곱하기-축적하드웨어에 의해 가속되는바 그것 
은 설계에서 작은 변화만 가지고도 원래 Pentium 하드웨어를 변경시킨다. 

매체처리는 콤퓨터공학자들의 새로운 설계목표로 되고 있다. MAX -2 확장을 가진 
PA -8000 에서 실행시 간은 여 러 가지 다매 체연산들에 대 해 2.63 에서 4.68 배 속도증가에 도 
달하였다. 부분단어 SIMD 병렬성은 하드웨어와 쏘프트웨어설계에 좋은 기회를 마련해 주 
었 다. 

ISA 확장외 에 매체처 리기 혹은 협동처 리기들의 설계를 고찰할수 있다. 
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4. 5. 3. VUW 구성방식 

다음세 대 처 리 기 를 개 발하는 Intel 과 HP 공동개 발은 VLIW 방법 을 리 용하여 병 렬 성 을 
개 발하기 시 작하였다. 아래 에서 지난 시기의 오유와 VLIW 구성 방식의 앞으로의 전망을 
평 가한다. 

그림 4-24 이에서 보여 주는바와 같이 다중기능단들이 VLIW 처 러기 에서 병 행 으로 
리 용된 다. 모든 기 능단들은 일 반 큰 등록기파일 러용을 공유한다. 기 능단들에 의해 동시 에 
실행 되 는 연산들은 하드웨 어 에 대 해 동기 화된다. VLIW 개 념 은 수평마이크로코드작성 으로 
부터 확장된다. 긴 명령의 여러가지 마당들은 발송된 여러가지 opcode 를 여러가지 기능 
단들로 나눈다. 

최대길이명 령단어는 1980년 초 다중흐름콤퓨테 241] 에서 설계된바와 같이 256 b 혹은 
1024 b 만큼 길수 있다. 

다중흐름 VLIW 처 리 기는 극소형프로그람화된 조종에 의해 실행되 였 다. 256 b 다중흐름 
모형 은 7개까지의 연산들이 병 행하여 실행 되도록 하였다. 박자속도는 극소형 프로그람화 
된 조종을 가진 조종기억기 의 빈번한 접 근으로 하여 아주 높이 올라 갈수 없다. 

VLIW 처리기는 초스칼라처리기의 극단으로 볼수 있다. 그러한 처리기는 독립이고 비관 
련된 모든 연산들을 콤파일시 에 벌써 함께 묶어 놓는다. RISC 명령 단어들(매개는 32 b ) 로 작성 
된 프로그람들은 VLIW 명령을 만들기 위해 밀집되여야 한다. 

이 코드밀집은 프로그람흐름을 추적하고 추적정보를 씨서 분기결과를 예측할수 있는 
강력한 콤파일 러 에 의해 수행 되 여 야 한다. 
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L) VLIW 의 관호름화된 실행 
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그림 4-24. 처 리기관흐름실행 단계 에서 VLIW 구성 방식과 다중연산의 병 렬실행 




































다중흐름기계의 오유는 주로 짧은 사용자코드단어를 VLIW 명 령으로 효과적으로 밀 
집 하는 강력 한 콤파일 러 의 비 능률성 에 기 인된 다. 

p 7 처리기가 VLIW 구성방식을 받아 들이자면 콤파일러지원이 필요하다. 

VLIW 처리기우점 리상적인 VLIW 처리기에서의 한 명령실행을 그림 4-24 L ) 에서 
보여 준다. 매 명 령은 다중연산들을 규정한다. 효과적 인 CPI 는 매 긴 단어 에서 통로병 
렬성을 가짐 으로써 1/«로 감소한다. 

VLIW 기계는 다음의 령역 에서 초스칼라기계 에 비해 개선된다. 

(1) VLIW 에서 병 렬연산들의 동기화는 콤파일시 에 완전히 실현되 여 초스칼라처 리기 
를 리용하는것보다 더 높은 처리기효률성을 가지게 한다. 

(2) VLIW 에 서 리용가능한 ILP 이 짧은-형 식 사용자코드에 서 높을 때 코드길 이 는 훨 씬 
짧다. 이것은 콤파일된 VLTW 프로그람의 실행시간이 훨씬 짧다는것을 의미한다. 

(3) VLIW 명령에서 명령병렬성과 자료이동은 실행시에 완전히 규정되기때문에 실행 
시 간자원일정작성기는 훨씬 간단해 진다. 

VLIW Pitfalls (함정) VLIW 구성 방식의 스칼라연산가운데서 우연병 렬성은 벡 토르초고 
속콤퓨터 에 서 개 발된 정 규병 렬성 혹은 SIMD 콤퓨터 에 서 의 lock step 병 렬 성 대 신에 
개발된다. 

VLIW 처 리 기는 지능콤파일 러 에 의한 효과적 인 코드실행 이 없이는 리용될수 없다. 

VLIW 구성방식은 오늘날의 x 86 혹은 RISC 프로그람과 일치하지 않는다. 이러한 러유로 
HP / Intel 공동개 발은 뒤 방향쏘프트웨 어 혼합성 론점 을 취 급해 야 한다. 

VLIW 에 기 초한 구성 방식 의 성 공은 하드웨 어 로부터 일 정작성 기함수를 접 수하는 효 
률적인 콤파일러에 크게 달려 있다. 

다른 문제는 어느 한 VLIW 기 계를 위 해 콤파일된 쏘프트웨 어는 다른 VLIW 기 계 를 위 
해 재 콤파일 되 여 야 한다는것 이 다. 

다른 말로 이가 VLIW 기계들의 세대들사이에서 증가될 때 새로운 콤파일러가 개발 
되여야 한다. 

이 모든것 들은 VLIW 가 지난 시 기 상업 적 성 공이 이 루어 지 는데 난관을 조성 하였 다. 

4. 6. 극소형처리기의 미래 

미 래 극소형처 리 기 소편들은 밀도가 훨씬 높은 미 소소편, 높은 박자속도, 높은 ILP , 낮 
은 CPI , 소비전력증가와 보다 정 교한 쏘프트웨어지원으로 설계될것 이 다. 이 절에서는 미 
래의 극소형처 리기 에 대 한 하드웨 어，작업부하，구성 방식, 쏘프트웨어지 원에서의 추세를 평 
가한다. 

자료는 TF.F. F. Micro, 1996.12 과 TF.F.F, Computer Magazin, 1997.9 에 제 출된 현대 극소형 
처리기들에 대한 두가지 전문론점에 기초한다. 

아래 에 미 래 극소형처 리기 에 대한 일반표상을 준다. 

적용범위는 21세기까지 확장될것이다. 
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어느 구성방식개념이 성공적인 상업제품으로 될수 있는가 하는것은 많은 기술적，업 
무적인자들에 달려 있다. 일부 인자들은 아래에서 상세히 서술한다. 

4. 6. 1. 하드웨어의 추세와 물리적한계 

1994년 에 반도체 공업협 회 ( SIA ) 는 2010년 에 가서 는 800 x 백 만 3극소자 CPU 소편들은 수 
천개의 Pin , 10000 b 모선，박자속도는 2 GHz 이상，전력소비는 180 W 이상의 특징을 가지게 
될것이라고 예측하였다. 

다른말로 10억개의 3극소자로 구성된 극소형처 리 기들이 다음 m 년에 나타날것 이 다. 
특히 고성능극소형 처리기들을 생산하는 이전의 경험에 기초하여 Intel 과 Digital 의 미래에 
대한 평가를 보기로 한다. 

Intel 개 발계 획 Intel 극소형 처 리기생산품의 책 임 자인 Albert Yu 는 1996년 말에 미 래의 
극소형처 리 기를 예측하였는데 표 4-7 에 요약되 여 있다. 그 예측을 보면 2006년에 3극소 
자 총수가 350 X 백만으로 뛰 여 올라 갈것 이 라고 하였다. 

die 크기는 매면에서 0.7 in 에서 14 in 으로 증가할것이다. 이 예측은 오히려 보수적이다. 
왜냐하면 O.lwm 기술은 단일소편에 1조개의 3극소자를 집적할수 있기때문이다. 


표 4-7 미래의 극소형처리기특징들의 예측 


특 징 

1996 

(현재) 

예 

측 

2000 

2006 

박자속도 

200 

900 

4000 

3 극소자 

6 

40 

350 

소편크기* (in) 

0.7 

1.1 

1.4 

선폭 Utm) 

0.35 

0.2 

0.1 

성능: 




MIPS 

400 

2400 

20,000 

SPEC int 95 

10 

60 

500 

*4 각형소편의 한변의 길이 


박자속도가 900 MHz 로 증가한다는것도 완전히 보수적 이 다. 그러 나 10년동안 4 GHz 까 
지 증가한다는것은 아주 놀랍다. 이것은 미 래의 미소소편에 더 많은 가능성을 부여할 기 
회 가 존재 한다는것 을 의 미한다. 

극소형처 리 기 성 능은 이 개 발계 획 에 따라 m 년동안에 50배 로 증가할것 이 다. 

DEC 개발계획 Digital 의 공학자들은 2003년까지 Alpha CPU 소편의 전망을 표 4_8에서 
와 같이 평가하였다. 

Digital 의 개 발계 획 은 Intel 과 조금 차이난다. 

5년동안 박자속도는 두배 로 될것 이 다. DEC 는 2000년까지 는 명 령발행 률을 주기당 16 
명 령으로 증가하고 2003년까지는 32-통로병 렬성으로 증가할것으로 본다. 
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표 4-8 Digital Alpha CPU 소편전망 


모형-년도 

21264(EV6) 

1997 

EV7 

2000 

EV8 

2003 

CMOS 처리 (ym) 

0.35 

0.25 

0.18 

소편밀도 (million) 

15 

100 

250 

박자속도 (MHz) 

500 

750 

1000 

명 령 발행 률 

8-way 

16~ way 

32-way 

SPEC int92(projection) 

800-1000 

3000 

Unknown 


ILP 의 그러한 높은 수준을 구성 방식 과 를파일령역 에서 기 본돌파가 없 이 개 발하는것 
은 오히려 어렵 다. 

앞으로 웨이퍼기판크기의 확대，얇은 선폭을 O . l / xm 로 낮추는 기술이 예상된다. 

그러 나 die 크기에서 확대，얇은 선폭，아주 높은 박자속도는 새로운 물리적제한을 만 
들어 내는데 아래에 서술한다. 

물리 적 제 한 Martzke [435] 는 가장 중요한 물러적제 한으로선폭과 직 결 장치 들이 앞으로 
줄어듬에 따라 직결선이 론리문보다 훨씬 떠진다는 사실을 지적했다. 

단일대역박자는 전체 미소소편에 있는 10억개의 3극소자를 구동할수 없다. 앞으 
로 크기가 작아 진다는것은 좋은 소식이지만 확대가능성, 시간 ( skewing ) 은 좋아 지 
지 않을것이다. 

Die 의 16%만이 10억개 의 3극소자처 리 기 에서 단일박자주기안에 도달할수 있 다. 초소 
편을 통해 신호를 보내는것은 1.2 GHz 박자의 20개 주기를 요구할수 있다. 다른 제한은 큰 
CPU 소편에 서 방출되 는 과도한 열로 하여 생 긴 다. 랭 각과 묶음화는 그다음의 현실적문제 
이다. 


4. 6. 2. 미래의 작업부하와 난관들 

처 리기구성 방식은 예상된 응용작업부하에 의 해 구동된다. 

일 반목적 과 응용특정처 리기 두가지는 다음 20년기 간에 작업부하에서 기 본변화를 가 
져 올것 이 다. 실 례 로 인 터 네 트와 WWW 리 용은 극소형 처 리 기 들에 서 의 다매 체 와 통신 확장 
을 촉진하였다. 

사용자대면부는 다매체극소형처 리기 에서 더 많은 전력을 소비할것 이 다. 

다매 체 작업 부하는 실 시 간과 매 몰형 응용에 서 계 속 증가할것 이 다. 

HP 의 Ruby Lee 는 부분단어병렬성을 매체처리기구성방식, 캐쉬와 기억기체계，부분단 
과 병 렬성, 를파일러，그림언어와 응용알고리듬에서 혁 신적 인 좋은 기회를 제공한다는것 
을 지 적하였 다. 

추가적 으로 설 계，확인, 극소형 처 리 기 검 사는 전체 개 발비 용의 40%이 상을 차지 한다. 
조립공장은 고성능극소형처리 기를 대 량적으로 생산하는데 쉽게 2조딸라를 초과할수 있다. 
다음세대 처리기를 개발하기 위 한 Intd/HP P 7 의 목적은 분리형구성방식의 우수한 특 
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징들을 VLIW 와 다매 체구성 방식과 통합하는것 이 다. 구성 방식 EV 7, EV 8 그리 고 P 7 은 앞 
으로 중요한 목표로 된다. 

하드웨 어진보외 에 미 래의 극소형처 리 기들에서 다른 난관들에는 특정작업부하를 위한 
새로운 처리기들에서 ILP 개발을 포함한다. 

를파일과 실행시 간체계쏘프트웨어는 미 래의 구성 방식 에서 병 렬성 을 자동적 으로 얻 기 
위해 요구된 다. 

4. 6. 3. 미래의 극소형처리기구성방식 

미 래의 조 1 - 3극소자극소형 처 리기 에 대 해 Berger 와 Goodman [115] 은 그림 4 - 25에서 7 
개의 후보구성 방식을 보여 준다. 

구성 방식 이 아래 로 내 려 갈수록 그것 들은 현재 프로그람작성모형 과 멀 어 진다. 

득대기 에 있 는 현재 극소형처 리 기 들은 평 가경 로에 펼 요하다. 



이 구성 방식 추세 는 수직 축을 따라 순서화된 다. 

앞절들에서 토론된 이 인자들은 미 래의 구성 방식 에 대 한 실계적 인 장성경 로를 결정 
한다. 

그림 4-25 에 있는 8개 구성 방식가운데 서 현재 미 소소편들과 꼭대 기 4개 구성 방식 들은 
단일소편에서 단일처 리기 이다. 

그 나머 지 는 다중처 리 기소편들이다. 현재 ISA 에서 벗 어 나려 는 추세는 현재 프로그 
람작성모형을 유지하려는것과 평형되고 있다. 이러한 구성방식들은 대부분 아직도 연구 
단계에 있다. 

그것 들을 아래 에 서 간단히 소개한다. 
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(1) 다통로초스칼라처 리기 오늘의 초스칼라처 리기들은 대부분 3-발행 혹은 4-발행 
설계 를 가지 고 있 다. Michigan 종합대 학의 연구그룹은 명 령 공급，자료기 억 기 공급 
그리 고 실행기 구는 현재 초스칼라처 리 기 들이 16-통로 혹은 32 -통로설계 로 확대 
하지 못하게 하는 기본문제라는것을 밝히 였다. 그들은 비순서꺼 내 기，다중혼성분 
기 예측과 명 령공급을 개 선하는 추적패 쉬 들을 리용하려 고 한다. 또한 큰 소편 내 
장캐 쉬 들과 자료공급을 높이 는 자료값을 리용하려 고 한다. 그들은 크고 비순서 
발행명 령창(와 )00 개 명 령), 클라스터화된 기능단들의 밴크와 준비명 령의 계 층적 
일정작성 기 를 주장하며 현재 단일처 리 기소편과의 쏘프트웨 어호환성 을 유지 하려 
고 한다. 

(2) 초스칼라처리기 Camegie-Mellon 종합대학의 연구그롭은 [415] 성능개선에 대한 모 
든 준위 에서 대 량의 투기리용에 주의를 집중하였 다. 그들은 여 러 가지 기 억기구 
성 을 위한 꺼 내 기 폭 32, 128개의 재순서완충기，128입 력 자료기 억대 기를 가진 초 
흐름마이 크로구성 방식 을 제 기하였 다. ISA 에 대 한 재 편집 과 변화를 요구함이 없 
이 어 떤 성 능평 가기 준을 위 한 주기 당 19까지 의 명 령 초투기 적 성 능과 SPEC 95옹 
근수를 위한 조화평균 SIPC 를 얻기 위해 약한 의존성모형을 리용한다. 이러한 
노력은 많은 점에서 Michigan 다통로초스칼라처리기를 보충한다. 

(3) 동시 다중스레 드처 리 기 동시 다중스레 드화 (Simultaneous Multi Threading , SMT ) 는 
Washington 대 학의 다중문맥 단일 처 리 기 를 의 미 한다. SMT 방법 은 단일 스레 드，단일 
처 리 기구성방식 에서 벗 어 난다. SMT 처 리 기는 다중프로그람화된 작업부하밖의 
다중스레드가운데 서 적 극적 인 관흐름을 공유한다. 이 방법 의 성 공은 스레 드준위 
에 서 높은 ILP 의 유용성 에 크게 달려 있다. 지 금까지 모의결 과만이 이 방법 의 
일부 성능리득을 보여 주었다. 

(4) 추적(다중스칼라)처리기 이 개념은 Wisconsin 종합대학의 Smith 와 Vajapeyam 에 의 
해 제 기되 였다. 기 본내 용은 여 러 가지 추적코드를 동시 에 실행하는 다중직결처 리 
기핵심부들로 이루어 진 추적처러기를 리용하는것이다. 추적을 선택하는 분기예 
측을 리용하여 한개 핵 심부외의 모든 핵 심부가 투기적 으로 실행된다. Wisconsin 
그룹은 미래의 다중스칼라처 리 기들이 보통 순차프로그람의 실행속도를 증가시키 
는 복제，계 층성 그러 고 예 측에 크게 의 거할것 이 라고 주장한다. 실례 로 매 처 리 
요소가 주기당 4개 명 령 들을 발행하면 4개 의 처 리 요소는 주기당 16 혹은 그이 상 
의 명 령들을 실행할수 있다. 

(5) 벡토르 IRAM 처 리기 IRAM(Intelligent Random-Access Memory ) 는 California 종합대 
학의 연구개 발계획 이 다 [377]. 그들은 기 억기체계 가 앞으로 주요한 성능병목문제 
일것 이 라고 주장한다. 그들은 소편우의 대 용량기 억기배 렬안에 내 장된 확대 가능 
한 다중처리기를 제작하는 DRAM 기술을 조사하고 있다. 결과 소편내장기억기용 
량과 높은 대 역 너 비 는 일 반적 인 구성 방식 보다 비 용이 효과적 인 벡 토르처 리 기 틀 
이 훨씬 높은 성능준위에 도달할수 있다고 본다. 그 방법은 현재 초고속콤퓨터 
에서 충분히 만족되기때문에 명백한 편집을 요구한다. 그들은 미래의 작업부하 
는 보다 벡토르화가능한 성분들을 포함할것으로 믿고 있다. 

(6) 단일소편다중처 리 기 이 것은 소편다중처 리 기 ( CMP ) 를 발전시 킨 Stanford 종합대 학 
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의 개 발계 획인데 한개 소편우에 4~16개의 고속처 리 기를 내 장하였다. 매 처 리기 
는 작은 1차캐쉬에 밀집으로 결합되고 모든 처리기들은 큰 2차패쉬를 공유한다. 
처 리 기 틀은 병 렬일감을 협 조하거 나 독립 과제 를 수행할수 있다. CMP 를 잘 동작 
하게 하기 위해서 프로그람작성 자나 콤파일러는 코드를 명백 히 병 렬로 작성하 
여 야 한다. 이전의 ISA 는 비 록 한개 의 작은 처 리기 에서 천천히 혹은 비효률적 
으로 동작할수 있지만 CMP 와는 적합하지 않을것이다. Stanford 연구자들은 스레 
드와 처리병렬성을 앞으로 널리 퍼지게 되리라고 기대하고 있다. 

(7) Raw (구성 가능한)처 리기 MTT 연구소의 이 개 발계 획은 가장 기 본적 인 구성 방식을 제 
공하는데 우리가 지금까지 연구한 일반적인 구성방식 혹은 미래의 구성방식에서 
떨어 져 있다. 기 본내 용은 매개 가 단일소편에서 재구성 가능한 론리를 가진 수백개 
의 매우 간단한 처러기들로 높은 병렬구성방식을 완성한다. 병렬실행과 통신은 生 
프트웨어 조종과 조정 으로 재 분류한다. 이 방법 은 전통적 인 명 령 모임 대 면부를 배 제 
한다. 그것은 복제된 구성 방식을 직접 콤파일러 에 게 로출시킨다. 이 구성가능한 구 
성방식 은 콤파일 러 가 매 응용프로그람에 대 한 하드웨 어 를 구분하도록 한다. 

4. 7. 참고문헌주해와 련습문제 

발전된 극소형처 리 기들이 [603] 에서 고찰된다. Crawford 는 [173] 에서 i 486 구성 방식을 
서 술한다. 

M 6840 처 리 기 는 Ecenfield 에 의 해 [224] 에 서 서 술된 다. 

RISC 콤퓨터 에 대한 리론은 Staffing [581] 에서 주어 진다. 

RISC 구성 방식 에 대 한것은 Hennessy 와 PatterSon [305] 에 서술되 여 있 다. 

처리기를 취급하는 Hwang 의 책은 모든 콤퓨터교재에서 쓰이고 있다. 가장 초기의 
극소형 처 리 기 인 Intel 4004 의 력 사가 Faggin 등에 의 해 고찰되 였 다 [234]. Berkeley RISC 는 
Patterson 과 Sewuin 에 의해 제 기 되 였다. MIPS R 2000 은 [359] 에서 토론되 였고 MIPS R 4000 
은 Mirapuri 등에 서 보고되 였으며 [456 ]， MIPS R 10000 는 Gwennap [291] 과 Yeager [66 이에서 
고찰되였다. 

초스칼라 그러 고 초관흐름화된 기 계 들은 Jouppi 와 Wall 에 의해 특징화되 였 다 [356]. 
John SOn [352] 는 초스칼라극소형처 리 기의 대부분의 설계 론점 을 취 급하였다. 

SPARC 구성 방식 은 Weaver 와 Germond [63 刀에 서 특징 화되 였 다. SPARC 에 대 한 콤파일 
러는 Munchnick 에서 출현하였 다 [456]. UltoSPARC 는 Greenley 등에서 취급되 였다 [281], 
[61 刀. Power PC 601 에 대 한 다중처 리 기 지 원은 [23] 에 서 고찰되 였 다. 

Power PC 604 는 Denman 등에 의 해 서 술되 였 다 [202], [578]. Power PC 620 은 Levitan 등 
에 의해 서 술되 였 다 [408]. 

HP 구성 방식 은 Lee 에 의해 평 가되 였 고 [398] PA -8000 은 Hunt 에 의해 서 술되 였 다 [322]. 

MPPs 에서 극소형처리기를 러용하는것은 Smith 에 의해 평가되였다 [5 기]. 

Alpha AXP 구성 방식 은 Digital manuals 에 서 서 술되 였 다 [191], [196], [225]. IBM 에 서 
RISC 처 리 기발전은 [160], [335] 에 서 제 출되 였 다. 

Pentium 구성 방식 은 Anderson 파 Shanley [31] 에 서 서 술되 였 다. 
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I 860 구성 방식의 중요한 내용은 Margulis [428] 에서 서술되였다. 

Pentium Pro ( P 6 ) 구성 방식은 Colwell 과 Steck [162] 그리 고 Gwennap [290] 에서 서술되 였다. 
극소형처 리기의 다매체 확장은 Lee [400], [401], Peleg [445] 그리고 Weiser [64()] 에서 찾아 볼 
수 있다. Dicfendorff 와 Dubey [205] 은 다매 체작업부하가 극소형처 리기설계를 어떻 게 변화 
시킬수 있는가를 평가하였다. 

VLIW 구성 방식 은 처 음으로 Fisher [241] 에 의해 제 기 되 였 다. 

Post-RISC 자료는 Brehob 등의 보고에 기초하고 있다 [108]. 

[321] 은 처 러기소편에 대 한 가장 최 근의 발전을 제시한다. 

극소형처 리기의 사회 에 대 한 영 향은 Markoff [429] 에서 토론되 였다. 

미 래의 극소형처 리기들의 평 가는 Yu [663] 에서 보여 준다. 

1조-3극소자구성방식은 Burger 와 Goodman 에서 고찰된다 [115]. Matzke [435] 는 처리기 
확대 가능성 에 대한 물리적제한을 평 가한다. 

17개의 미 래의 극소형처 리 기구성 방식은 Patt 등에서 제 기되 였다 [491], [418]. 

Smith 와 Vajapeyam [572], Eggers 등 [227], Kozyrakis 등 [377], Hammond 등 [296] 그리 고 
Waingold [631], 


문 제 

문제 4.1. 처리기기술에 관계되는 다음의 기본용어들을 정의하시오. 

• 명령발행률 

• 주소화방식 

• 단일캐쉬 대 분할캐쉬 

• 하드웨 어구성된 조종 대 극소형프로그람화된 조종 

문제 4.2. 스칼라 RISC 혹은 초스칼라 RISC 처리기에 대하여 다음질문에 대답하시오. 

• 왜 대부분의 RISC 옹근수단은 32개의 일반목적등록기를 사용하는가? SPRAC 구성 
방식 에 서 수행 된 등록기 창개 념 을 설 명 하시 오. 

• 큰 등록기파일과 큰 D - 캐쉬사이의 설계절충은 무엇인가? 

• 스칼라 혹은 초스칼라조직을 가진 대부분의 RISC 처 리기들에서 옹근수단과 류동 
소수점 단사이 의 관계 는 무엇 인 가? 

문제 4.3. 4.2 절에서 고찰한 발전된 처리기들의 토론에 기초하여 RISC , CISC , 초스칼 
라와 VLIW 구성 방식 에 대 한 다음의 것 들에 대 답하시 오. 

• 명령형식, 주소화방식 그러고 명령당 주기에 의해 RISC 와 CISC 처리기들에서 명 
령모임 구성 방식 을 비 교하시 오. 

• 명령과 모임에 대한 일반캐쉬 혹은 분할캐쉬를 리용하는 우점과 결점을 토론하 
시오. 
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• 하드웨 어 요구와 쏘프트웨 어 지 원 에 의 해 초스칼라와 VLIW 구성 방식 사이 의 차이 
를 설명하시오. 

문제 4.4. 다음의 5개 극소형처리기구성방식을 실례들어 특징화하고 매 경우에 극소 
형구성방식을 연구하시오. 

• 비 순서실행 을 가진 초스칼라 RISC 

• 다매 체확장을 가진 Post-RISC 

• 초투기적극소형구성방식 

• IRAM 혹은 지 능 RAM 구성 방식 

• 단일-소편다중처리기 ( CMP ) 

문제 4.5. 상품화된 극소형처 리 기들의 다매체확장에 대 하여 다음의 두가지 질문에 대 
답하시 오. 


• 오늘날의 64 b 초스칼라 RISC 처리기에서 SIMD 병렬성을 개발할수 있는 주요다매 
체자료형 들은 무엇 인가. 

• 64 b , 4-발행인 초스칼라처리기를 러용할 때 최대속도는 얼마인가. 초스칼라처리 
기는 묶음 Byte SIMD/MIMD 다매 체처 리를 위한 4개 옹근수 ALUs 를 가진다. 처 
리기는 다매체확장을 가진다고 가정한다. 다매체확장이 없는 동일한 처리기에 
대해 모두 비교하시오. 

문제 4.6. 40 MHz 처리기에서 200000명령을 가진 대상코드실행을 고찰하시오. 프로그 
람은 4개의 주요명령형태로 이루어 진다. 명령혼합과 매 명령형태에 필요한 CPI 는 아래 
에 주어 지 는데 프로그람추적실험 에 기 초한다. 

• 프로그람이 우의 추적결과를 가진 단일처리기에서 실행될 때 평균 CPI 를 계산하 
시오. 

• CPI 에 기초한 대응하는 MIPS 를 계산하시오. 


명령형래 

CPI 

명령 혼합 

산수와 론리 

1 

60% 

캐쉬적중을 가전 적재/기억 

2 

18% 

분기 

4 

12% 

캐쉬비적중을 가전 
기 억 기 참조 

8 

10% 


문제 4.7. 40 MHz 처 러 기 가 다음의 명 령 혼합과 박자주기 수를 가진 성 능평 가기 준프로그 
탐을 실행하는데 리용되 였 다. CPI , MIPS 률과 이 프로그람의 실행 시 간을 결정하시 오. 


196 









명령형태 

명령계수 

박자주기계수 

옹근수산수 

45,000 

1 

자료이 행 

32,000 

2 

류동소수점 

15,000 

2 

1조종이 행 

8,000 

2 


문제 4.8. 25 MHz 박자속도를 가진 선형관흐름처리기에 의해 15000개 명령프로그람실 
행을 고찰하시오. 

명 령관흐름은 5개 단계를 가지며 한개 명 령은 박자주기당 발행된다고 가정한다. 분 
기에 의한 벌칙은 丁)에서 무시되고 니에서는 무시되지 않는다. 

1) 프로그람을 실 행하는 이 관흐름을 리용하는메 서 속도인자를 계 산하시 오. 프로그 
람은 같은 량의 흐름통과지연을 가진 등가인 비 관흐름화된 처 리기리용을 비 교한다. 

T ᅳ ) 25%의 보충적 인 주기 들이 같은 코드를 실 행하는데 필요되 고 분기효과를 포함한 
다면 이 관흐름화된 처리기의 효률성과 통과능력은 얼마인가? 

문제 4.9. 주기당 m 개 명 령을 발행할수 있고 주기당 한개 명 령을 발행하는 기초처 리 
기 보다 «배 더 빠른 박자에 의해 구동되는 초관흐름화된 초스칼라처 리 기를 고찰하시오. 

• 기 초처 리 기 에 비 한 초관흐름화된 초스칼라처 리 기 의 속도식 S ( m , 미을 유도하시 오. 

• M - 발행 초스칼라처 리 기 증대 를 막는 실천적 제 한은 무엇 인가? 

• N 배 더 빠른 박자를 가진 초관흐름의 증대에 대한 실천적제한은 무엇인가? 

문제 4.10. 비관흐름화된 처리기 표가 25 MHz 박자속도와 평균 CPI 4를 가진다. 표의 
개선된 계승인 처리기 Y 가 5-단계관흐름으로 설계된다. 그러나 크로스바 ( latch ) 지연과 박 
자비 대 칭 (況; ew ) 효과로 인해 모의 박자속도는 20 MHz 뿐이 다. 

• 100개 명령을 포함하는 프로그람이 두가지 처리기에서 실행된다면 처리기 표와 
비교되는 처리기 꾼의 속도는 얼마인가? 


문제 4.11. 오늘날의 일부 극소형처 리 기들에서 Post-RISC 특징 을 고찰하시 오. 


1) 순수한 초스칼라 RISC 특징과 차이나는 적어도 4개의 Post-RISC 특징을 설명하시오. 
L ) 1) 에서 동일시되는 매 post-RISC 특징 에 대 하여 그 특징을 가진 한개 처 리기실 
례를 동일시하고 독자의 주장을 정당화하시오. 

n ) 다음의 10개 처리기를 기， L ) 에서 동일시되는 매몰형 Post-RISC 특징을 가진 
순서로 정렬하시오. 


PowerPC 620: 
PA -8000: 
Pentium -2: 


AMD K 6: 
Alpha 21164: 
Pentium P 55 c : 


UltraSparc -2: MIPS R 10000: 

PowerPC 604: Alpha 21064: 
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제 5 장. 분산기억기와 지연시간허용성 


현대 를퓨터 가동환경 에서 기 억장치(캐쉬, RAM 소편, 하드디스크, 레 프단 그리 고 주변 
장치 ) 비 용은 처 리 기 핵 심 부비 용을 훨씬 초과하였 다. 이 장에 서 우리 는 기 억 기 들에 서 최 근 
발전에 대하여 평가한다. 

특히 분산기 억기 구성 방식 과 기 초적 인 지 연시 간허 용기 술에 중점 을 둔다. 원격 기 억 기 
접 근으로 초래 되는 지 연시 간을 줄이거 나 피 하며 은페시키는 하드웨 어와 쏘프트웨 어방법 
들이 연구되고 있다. 

우리는 기 억기공유캐쉬일관성, 기억기 일치성 그리고 확대 가능한 병 렬콤퓨터 에 
서 지 원시 간은폐 를 지 원하기 위한 하드웨 어 와 쏘프트웨어 기구에 관심 을 돌린 다. 기 
억기구성방식에 관한 이러한 문제들은 극소형처리기의 성능, 확대가능성 그러고 
프로그람화가능성과 CC - NUMA , COMA , 쏘프트웨어실행형 DSM 등과 같은 여러가 
지 분산기 억기구성 방식 을 선택하는 다중콤퓨터 에 영 향을 준다. 여 기서 는 기 억 기 단어 
로부터 캐쉬행과 가상폐지까지의 범위에 속하는 모든 립도준위에서 기억기공유를 
취 급한다. 


5. 1 . 계층기억기기술 

대표적인 계층기억기에 대한 기억기특징들과 동작성질들을 아래에서 요약하여 서술 
한다. 그다음 그 계층기 억기의 용량계획작성 을 위 한 선형계획 모형을 제 기 한다. 

5. 1 . 1 . 기억장치의 특성 

등록기，외부캐쉬，디스크장치 그리 고 레프단들과 같은 기 억 장치들은 흔히 그림 5-1 에 
서와 같은 계층성을 가지고 조직된다. M , •는 /번째 준위에서의 기억기를 가리킨다고 하자. 

그림 5-1 은 4개 준위를 가진 계층성을 보여 주는데 여기서 Mo 은 CPU 에서 등록기 
혹은 내부캐쉬, M ! 은 외부캐쉬， M 2 은 주기 억기， M 3 은 디 스크기 억 그리 고 M 4 는 레프단이 
다. 매 준위 에서 기 억기기술과 조직화는 아래 에서 정의된 5개 파라메터들로 특징화된다. 

• 기 억기 M , ■에 접근하는 접근시 간 u ( ns ) 

• 的의 기 억기용량 5,. ( MB ) 

• M , ■의 byte 이당 비 용 ( cent ) 

• M ; 와 M , +1 사이의 자료전송률 혹은 대역너비 切 MB / s ) 

• 린접한 준위 하와 Mw 사이의 byte 혹은 단어, 캐쉬행, 페지 혹은 토막들에서 x t 
전송단 
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그림 5-1. 대 규모콤퓨터체계를 위한 4-준위 계 층기 억기 


낮은 준위에 있는 기억기장치일수록 접근시간이 더 빠르고 byte 당 비용이 더 비싸 
며 전송대 역너 비는 더 높다. 그것은 더 높은 기 억기준위 의 파라메터들과 비 교되는 더 
작은 전송단을 러 용한다. 다른 말로 말하면 n_ 준위계 층기 억기 에서 다음과 같은 부등식 
이 성 립한다. 


ti-l < ?< 5, c 〉 C, •，公公,'， Xf_i < (5.1) 


현대 처리기는 대표적으로 32개 옹근수등록기들과 32개 류동소수점등록기를 가지고 
있 다. 이 것 들을 일 반목적 등록기 (GPRs) 혹은 등록기 파일 이 라고 부론다. 콤파일 시 에 가상 
기억기배정이 진행된다. 그것들은 실행시에 물리적등록기들로 넘어 간다. 

등록기들과 소편내 장 (on-chip) 캐쉬틀은 CPU 소편의 부분이 다. 

이 기억기모형에서 소편외장외부캐쉬는 준위 1에서 고찰된다. 주기억기는 준위 2에 
있으며 하드디스크는 준위 3에，레프단은 준위 4에 있다(그림 5-1). 

다중차수캐쉬들 캐쉬 그 자체는 7개 준위의 부분계층성을 가질수 있다. 흔히 처리기 
에 의 해 1 주기 동안에 접 근되 는 소편내 장캐 쉬 는 준위 1 에 서 고찰된다. 

소편외 장 (off-chip) 캐 쉬 를 2 차캐 쉬 라고 부론다. 

해석을 간단히 하기 위하여 전체 캐쉬부분계층성을 하나의 준위로 하는 효과적인 접 
근시간만을 고찰한다. 

소편외 장캐 쉬 들은 흔히 정 적 우연접 근기 억 기 (SRAM) 적 접 회 로소편들로 제 작된 다. 

대부분의 소편내장 I- 캐쉬와 D- 캐쉬는 32KB 에서 결합용량으로서 128KB 까지 가진다. 소 
편외장캐쉬는 128KB 에서 64MB 로 변할수 있는데 처리기형래에 따라 설계된 외부캐쉬조종기 
에 의존한다. 기 억기 관러 단 (MMU) 은 자료 CPU 소편의 부분으로서 제 작된다. MMU 는 프로그 
람작성 자에 게 명 백 하다. 대 부분의 캐 쉬 들은 일부를 제 외 하고 사용자들에 게 명 백 하다. 
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주기억기 주기억기는 흔히 작은 기억기판에서 묶음화된 다중동적우연 접근기억기 
(DRAM) 소편으로 제작되였다. SIMMS (Small in-line memory module) 이라고 부론다. 1997 년 
에 DRAMs 은 소편 당 4, 8, 16, 32 그리 고 64Mbs 에 서 리용할수 있 다. 128Mb 에 서 1Gb 까지 
의 DRAMs 이 곧 출현한다. 

전형 적 인 주기억기 용량은 현재 의 PCs 에 서 는 8 에 서 64MB 범 위 에 있으며 워 크스테 이 
션에서는 32 로부터 128MB, SMP 봉사기에서는 128MB 에서 4GB 범위에 있다. 이 용량들은 
앞으로 계 속 늘어 날것 이 다. 

주기억기는 흔히 고속관흐름화된 접 근 혹은 아주 많은 기 억 기 단어 들을 동시 에 병 렬 
접근하기 위한 엇끼우기형기 억기모둘 (interleaved memory modules) 로 조직된다. 

기 억기대역너비는 기억기모선 혹은 기 억기절환을 통하여 전송할수 있는 단어들의 수 
혹은 백 만 byte 의 수로 정의된다. 엇끼우기형기억기모둘은 또한 보다 높은 기 억기대역너 
비뿐아니라 기억기고장을 매 기억기뱅크에서 분리시키는 높은 허용성을 제공하는 기억기 
뱅크로 함께 묶어 진다. 

주기억기는 MMU 와 동작체계가 협동하여 관리된다. 

물리 적기 억기 와 대 규모 디 스크공간사이의 유효한 기 억기 관려 는 주요한 OS 기능의 하 
나이 다. 

만일 물리적인 SIMMs 가 각이한 CPU 판에 분산되면 기억기판 혹은 CPU/ 기억기판을 
추가하여 주기억기를 확장시킬수 있다. 주기억기는 각이한 준위에서 각이한 기억기속도 
기 술을 리용하는 다중준위 에 의해 조직 될 수 있 다. 

목적 은 전체 기 억 기비 용을 줄이는것 이 다. 

디 스크구동 디 스크구동과 레 프단은 사용자개 입 을 제 한시 킨 OS 에 의해 조종된 다. 디 
스크기억은 직결기억기의 가장 높은 준위로 본다. 그것은 사용자프로그람과 자료모임은 
물론 OS 와 콤파일 러 와 같은 체 계프로그람들을 보관한다. 

자기 디스크는 두가지 형태가 있는데 플로피 디스크, 하드디 스크이 다. 플로피 디스크는 
흔히 1.44MB 용량을 가지 며 유연성 구동기 에 의해 이 동할수 있 다. 하드디 스크는 지난 15 년 
동안에 직경이 14 로부터 1.8in 으로 축소하였다. 

이 디 스크의 형 식화된 자료용량은 IBM 3090 콤퓨터 에 서 1.8in Integral 1820 디 스크구동 
의 20MB 에 서 10.88in 디 스크구동의 22.7GB 범 위 에 있 다. 

디 스크접 근시 간은 10 에서 25ms 범위 에 있는데 기계적회전으로 아주 느러다. 자료전송 
률은 1.9 에서 4.2MB/S 범위 에 있다. 자기디스크는 전력중단으로 변화되지 않지만 기계 적고 
장이 일 어 나기 쉽다. 

그러므로 디스크에 기억된 정보는 다음준위의 기억기인 레프단에 돌려 보내야 한다. 

레 프단 자기레 프단은 여 유기 억기 로서 비직결기 억기를 쓴다. 

레프단접근시간은 초단위정도로 느리다. 그러나 용량을 100GB 지어는 TB 로 올릴수 
있 다. 
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레프단은 현재와 과거의 사용자프로그람들，실행결과들 그리고 처리된 파일들의 복 
사를 보관한다. 

레프에 정보파일들을 기억하면 목적이 달성된것으로 본다. 테프에 기억된 정보파일 
들은 직결식이 아니다. 

그것들을 복귀하기 위하여 를퓨터동작기들이 개 입되 여 야 한다. 

표 5-1 은 주기억기，디스크구동장치와 레 프단의 물리 적 인 특징들을 비 교한다. 단위 용 
량은 단위구역 에 기 억 가능한 정 보를 표시한다. 체 계용량은 높은급워크스테 이손콤퓨터의 
용량을 표시 한다. 현재 값은 1997워 크스테 이 션 / Server 판매 자들에 의 해 광고된 수이 다. 


표 5-1 높은급워크스테이션의 기억 기，디스크구동장치와 테프단 
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5. 1 . 2. 계층기억기의 성질 

아래에서 서술되는 기본적인 성질들은 유효한 계층기억기를 설계하거나 러용하기 위 
한 포함, 일관성 그리고 국부성 이 다. 

계층기억기의 설계법칙은 본질적으로 이 성질들로부터 유도된다. 이 성질들은 린 
접한 기억기준위들사이의 관계를 설정한다. 그것들은 또한 계층기억기의 동작을 규정 
한다. 

포함성 질 포함성 질은 n 개 기 억기준위들사이의 모임포함관계 를 다음과 같이 표시한다. 

MjcMjcMsC … 〔 M „ (5.2) 

두개의 린접한 준위들사이 의 모임포함관계 는 준위 M /+1 에 기 억된 모든 정 보대 상들 
(단어，캐쉬행 혹은 패지)은 M f+1 (모든 卜1,2,…，비에 기억된 정보대상들의 부분모임 

을 이 룬다는것 을 의 미한다. 초기 에 은 프로그람을 실 행하는데 필요되 는 모든것 을 포함 
한다. 실 행주기 동안에 M „ 의 부분모임 들이 다음의 낮은 준위 M, m 로 복사된 다. 류사하게 
의 부분모임은 M „_2 에 복사되며 요구되는 명 령과 자료가 기 억기 ^幻로 이동할 때 
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까지 계속하여 처리기에 의한 실행을 준비한다. 

的에서 정보를 찾을수 있다면 같은 정보의 복사를 보다 높은 준위 
M f +1, M i +2, …, 에서 찾아 볼수 있다. 그러나 에 기억된 단어는 비에서 찾을 
수 없다. 

M , ■ 에서 단어를 찾지 못하면 모든 낮은 준위 M m , M 니，…, M : 에서도 찾지 못한다. 

가장 높은 준위는 여유기 억이며 여 기서 모든것을 찾을수 있다. 

정보복사에 관하여 M , ■는 M ,. +1 의 참부분모임이다. 

자료전송단 이것은 린접 한 기억기준위사이의 정보전송단을 가러킨다. 기억기단어 (4 b 
는 32 b 기 계 를 위한것 이 고 8 B 는 64 b 기 계 를 위한것 )는 CPU 등록기 들과 내 부소편 내 장캐 쉬 사 
이의 전송단이 며 캐쉬행은 내 부캐쉬 와 에서의 외부캐쉬사이의 전송단이 다. 최 근의 일 
부 기계들은 케쉬행크기를 64 b 혹은 128 B 로 확장하였다. 

M 2 에 서 주기 억 기 는 흔히 페 지 당 4 KB 인 고정 크기 페 지 로 나눈다. 각이 한 기 계 는 각 

이한 폐지크기를 선택할수 있다. 페지는 디스크와 주기억기사이의 자료전송단이 다. 

분산형 페지 들은 흔히 디 스크에 서 파일 들의 토막으로 국부적 으로 묶어 진 다. 그러 
므로 토막은 레 프단과 디 스크사이의 전송단이 다. 단어 는 캐쉬행의 부분이 고 캐 쉬행 
은 페지의 부분이며 폐지는 토막의 부분이라는것을 명백히 해야 한다. 

일 관성 일 관성 은 갈은 정 보항목들의 복사들이 각이한 기 억기 수준에 서 일 치할것 을 요 
구한다. 

단어 혹은 패 쉬행 이 낮은 수준에 서 수정 되 면 그 단어 혹은 캐 쉬행 의 복사들은 높은 
기억기준위에서 즉시에 갱신되여야 한다. 현재 쓰인 명령/자료항목들은 높은 준위의 기억 
기들로부터 캐쉬에로 빨리 축적된다. 

따라서 일 관성문제 는 Mi 의 캐쉬 에서 기 억 기 M 4 로 모든 방식 을 확장한다. 련속적 인 
준위 에 서 기 억 기 일 관성 을 유지 하는것 은 중요한 문제 이 며 종종 외 부모선주기 를 요구하거 
나 기 억기지 연시 간을 연장한다. 일반적 으로 계층기 억기 에서 일관성을 유지 하는메 두가지 
방법이 있 다. 첫 번째 방법을 련속쓰기 ( write - through , WT ) 라고 부르는데 단어가 
보,刀 = 1，2,ᅳ,«-1)에서 수정되면 M t . +1 에서 즉시적인 갱신을 요구한다. 두번째 방법은 

후쓰기 ( write - back , WB ) 인데 수정된 정보항목을 포함하는 M , •의 기억기단이 다른 새로운 
정보항목으로 바꾸어 질 때까지 M ᄈ에서의 갱신을 지연시킨다. 따라서 기억기설계는 
WT 와 WB 로 나눈다. 

실천적으로 WT 는 내부캐쉬 (I- 캐쉬 혹은 D- 캐쉬)를 갱신하는데 쓴다. WB 는 Mj 기억 
기 인 외부 2 차캐쉬 를 갱 신하는데 쓴다. 잘 알려 진 기 억기 교체방법은 LRU (가장 최 근에 
쓰인것 , LFU (최 소리용빈도)， FIFO (선입 선출)와 우연알고리 듬 등을 포함한다. 

참조국부성 계층기억기는 참조국부성으로 알려 진 프로그람동작에 기초하여 개발된 
다. 많은 참조들은 명 령 혹은 자료접 근을 위한 CPU 에 의해 발생 된 다. 
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이 접근들을 시간, 공간, 순서화의 령역에서 아래와 같이 정의한다. 

(1) 시간국부성 최근에 참조된 항목들(명령 혹은 자료)은 앞으로 다시 참조될수 
있다. 이것은 흔히 반복고리, 처리탄창, 시간변수 혹은 부분프로그람과 갈은 
전용프로그람구조체에 기인된다. 일단 고리(순환)에 들어 가거나 부분프로그 
람을 호출하면 작은 코드토막이 수많이 반복적으로 참조된다. 따라서 시간국 
부성은 가장 최근에 쓰인 코드와 자료토막주위로 클라스터화된다. 

(2) 공간국부성 이것은 쏘프트웨어처리가 주소가 서로 가까이에 있는 정보항목들에 
접근하는 경향성을 가러킨다. 실례로 표나 배렬에 있는 동작틀은 주소공간의 일 
정한 클라스터 화된 구역 에 대 한 접 근을 포함한다. 루린과 마크로와 같은 프로그 
람토막들은 기 억기공간의 같은 린접 에 기 억되는 경 향이 있다. 

(3) 순차국부성 대 표적 인 프로그람에 서 명 령 실 행 은 분기 명 령 이 비 순차실 행 을 발생 
하지 않는 한 프로그람순서 라고 부르는 순차에 따른다. 비순차실행 에 대한 순차 
실행률은 보통 프로그람에서 대체 로 5에서부터 1까지 이 다. 또한 대규모자료렬의 
접근도 행 렬 원소의 주요행 ( row - major ) 접근과 같은 순차를 따른다. 

기억기설계실현 프로그람수행에서 순차국부성은 모든 형태의 국부성과 관계한다. 왜 
냐하면 순차적 으로 코드화된 명 령 들과 배 렬원소틀이 린접하는 기 억 기 장소에 기 억되 고 거 
의 같은 시 간에 참조되 기때 문이 다. 국부성의 매 형태는 계층기 억기설계 에 영 향을 준다. 

• 시 간국부성 은 기 억기설계 를 위한 LRU 교체알고리 듬리용에 맞게 동작한다. 그것 
은 후에 소개되는 작업 모임개 념과 관계된다. 

• 공간국부성은 린접한 기억기준위들사이의 단위자료전송크기를 결정하는데 도움 
을 준다. 시 간장소 역시 련속준위 에서 기 억기크기를 결정하는데 도움을 준다. 

• 순차국부성 은 최 량일정 짜기 를 위 한 grain 크기 를 결정 하는데 영 향을 준다. 미 리 꺼 
내 기기술은 이 국부성성질로부터 영 향을 받는다. 

5. 1 - 3. 기억기용량의 계획작성 

계층기억기성능은 계층의 어느 준위에 대한 유효접근시간 r eff 에 의해 결정된다. 

그것은 련속준위 에서 적중률 (hit ratios ) 과 접 근빈도에 의존한다. 

아래 에서 이 항목들을 형식적 으로 정의한다. 그다음 주어 진 비 용제 한에서 계층기 억 
기 용 량을 최 량화하기 위한 모형 을 제 기한다. 

적중률 적중률은 두개의 어떤 린접한 계층기억기준위들사이에서 정의된다. 정보항목 
을 M ; 에서 찾을 때 그것을 적중한다고 말하고 그렇지 않으면 비적중이 라고 말한다. 

N - 준위계층기억기를 고찰하자. 적중률 hi 는 정보항목이 的에서 찾게 되는 확률이다. 그 
것 은 준위 M , m 과 예의 특징 에 대 한 함수이다. 비 적 중률은 1- 이 로 정 의한다. 
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련속준위에서 적중률은 기 억기용량，관리방법 그리고 프로그람동작의 함수이다. 계층 
에서 련속적 인 적중률은 0과 1사이의 값을 가진 독립우연변수이다. 간단히 유도하기 위 
해 A 0 =0, A n = l 이 라고 가정 한다. 이 것은 CPU 소편안에 서 비 적 중후 Mi 에 대 한 접 근을 초 
기화한다는것과 그리고 M „ 에 대 한 접근은 언제 나 적중하다는 결과를 얻는다는것을 의미 
한다. 

M , ■에 대한 접근빈도는 

(5.3) 


로 정 의한다. 

이것은 모든 낮은 준위에서 i_l 번 비적중했을 때 준위 M , ■에서는 적중하는 확률 
이 다. 

국부성성질 에 의해 접 근빈도는 낮은 준위 에서 높은 준위 에 로 아주 빨리 감소한 
다. 즉 


/나/2》/，"》^ (5-4) 

이것은 기억기내부준위는 외부준위보다 훨씬 자주 접근된다는것을 의미한다. 대표적 
으로 첫번째 준위 八 은 95%보다 더 빠르고 나머 지준위 들은 크기감소순서 에 따라 합해 
서 나머지 5%로 된다. 

유효접근시간 실천적으로 Mi 에서 가능한 높은 적중률을 얻는것 이 좋다. 매번 비적 
중이 일 어 나면 다음번 높은 기 억 준위 에 접 근하기 위해 벌칙 을 가하여 야 한다. 

비적중을 주기억에서는 페지오유 혹은 캐쉬에서는 캐쉬행비적중이라고 불렀다. 그것 
은 캐쉬행과 페지는 이 준위들사이의 전송단이기때 문이 다. 

페지오유에 대한 시간벌칙은 사 < f 2 < f 3 이므로 캐쉬행에서보다 훨씬 길다. Stone (1990) 

은 캐쉬비적중은 캐쉬적중보다 2-4 배 비용이 더 많이 들지만 폐지오유는 페지적중보다 
1000-10000 배 비용이 더 많이| 든다는것을 지적하였다. 

접근빈도 八, f = l ,2, …， n 을 리용하여 계층기억기의 유효접근시간을 다음과 같이 정 


의 한다. 


i=l 

= 사广1 + (1- 사 1) 八2,2 + (1 - 가 1) (1 - 가 2) 八3 호3 十 … (5.5) 

식 (5.5) 에 서 앞의 몇개 항은 전체 값의 많은 몫을 차지한다. 왜 냐하면/7과 /2이 다른 
것들보다 훨씬 크기때문이다. 유효접근시간은 프로그람동작과 기억기설계선택에 의거한 
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다. 프로그람추적을 한후에만 적중률과 r eff 값을 정 확히 평가할수 있다. 
계층최량화 계층기억기의 전체 값은 다음과 같이 평가된다. 



이것은 비 용이 n 개의 준위 들에 분포되 여 있다는것을 의 미한다. 

이 〉 c 2 > c 3 …〉 c „ 이므로 < s 2 ••- < s n -%r 선택해야 한다. 계층기억기의 최량설 

계는 M ! 의 사에 가까운 r eff 에 귀 착되 고 전체 비용은 기 억기준위 M „ 의 에 가깝다. 실 
제 상 이 것 을 얻 는것 은 «개 준위 가운데 서 절 충 ( tradeoffs ) 때 문에 어 렵 다. 최 량화과정 은 선형 
계획문제로 형식화될수 있다. 전체 비용의 최고한도를 C Q 으로 준다. 

다른말로 말하면 다음과 같은 제한밑에서 r eff 를 최소화하려고 한다. 


>0， t t >0 , i = l ,2,---, n 



표 5-2 에 서 보여 준바와 같이 매 준위 M , •에 서 단위비 용 Q 와 용량 S , ■는 속도요구 혹 
은 요구되 는 접 근시 간 ~에 관계 된 다. 

그러므로 우의 최량화는 혹은 ft , ■(모든 준위 i = \,2, …， n ) 가운데서 절 

충을 포함한다. 

다음의 실례 는 선형계 획문제 를 풀어 어 떻게 계 층기 억기 를 설계하는가를 보여 준다. 

실례 5.1. 계층기억기설계 

기 억기 에 대 한 다음의 특성 을 가진 3-준위계 층기 억기설계 를 고찰하자. 설계목적 
은 캐쉬적중률 fti =0.98, 주기 억기적중률 ft 2 =0.9 인 유효기억기접근시간 r eff = 10.04 /is 
를 얻는것 이 다. 계층기 억기의 전체 비 용은 웃한계 가 15000$이 다. 계층기 억기비 용은 
+ e 2 J 2 + c 3 J 3 <15,000로 계산된다. 


표 5-2 _ 기억기부분체계 실례에서 파라메 터들 


기억기준위 

접근시간 

용량 

비 용 / KB 

캐 쉬 

Ti=25ns 

Si=512KB 

Ci=$1.25 

주기 억 기 

T 2 = 미지 

S 2 =32MB 

C 2 =$0.2 

디 스크배 렬 

T 3 =4ns 

s 3 = 미 지 

C 3 =$0.0002 


디스크 최대용량은 최대비용을 초과함이 없이 s 3 =39.8 GB 로 얻어 진 다. 다음으로 주 
기 억기를 제 작하기 위한 RAMs 의 접 근시 간 을 선택 하자. 
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기억기에서 같은 캐쉬행의 캐쉬복사에 대한 여러가지 처리기의 비동기적쓰기 
다중처리기가운데서 서로 감시 없는 프로쎄스이동 
캐 쉬 복사의 소유권을 무시하는 I/O 동작들 


유효기 억기접근시간은 다음과 갈다. 

T ef[ = h l t 1 + ( l - h 1 ) h 2 t 2 + ( l - h 1 )( l - h 2 ) h 3 t 3 <10.04 ius (5.8) 

우의 값들을 대입하면 10.04 xl 0- 6 =0.98 x 25 xl 0- 9 + 0.02 x 0.9 x ? 2 + 0.02 x 

0.1 xlx 4 xl 0_ 3 . 따라서 디스크접근시간은 f 2 =903 ns 로 선택된다. 

같은 최대비 용제 한에서 디 스크용량을 감소하는 대 신에 주기억기를 64 MB 로 두배 하 
려고 한다고 하자. 

이 변화는 캐쉬 적중률에 영 향을 주지 않는다. 그러 나 알맞는 교체알고리 듬을 리용하 
면 주기억기 에서의 적중률을 중가시 킬수 있다. 그러면 전체 계층의 총체적 인 유효접근시 
간은 감소될것이다. 

5. 2. 캐쉬일관성규약 

이 절에서는 캐쉬일관성규약을 고찰한다. 일관성규약의 선택은 프로그람실행의 정확 
성은 물론 공유기억기성능에 영향을 준다. 일관성문제는 공유기억기에서 주소화된 갈은 
캐쉬행을 가진 분산캐쉬복사의 불일치성을 가리킨다. 

5. 2. 1 . 캐쉬일관성문제 

기억기체계에서 캐쉬행 포의 어떤 캐쉬복사에 대한(읽기 혹은 쓰기를 위한) 접근이 
언제나 다음과 갈은 캐쉬결과를 가지고 되돌아 오면 기억기부분체계는 캐쉬행준위에서 
일관된다고 본다 ([492], 656 p ). 즉 

• 처리기 P 에 의한 X 쓰기(다른 처리기에 의한 X 쓰기는 없다.)다음의 읽기는 P 에 
대 한 씌 여 진 값을 복귀 한다. 

• 다른 처 리 기 Q 에 의 한 X 쓰기 다음에 처 리 기 P 에 의 한 읽 기 는 읽 기 와 쓰기 가 충 
분히 갈라 지 고 그사이 에 다른 처 리 기들에 의한 X 쓰기 가 없으면 다가 쓴 값을 
복귀 한다. 

• 여 러 가지 처 리 기들에 의하여 같은 캐쉬행 보에 대 한 쓰기 는 기 억기사건들의 같 
은 순서 를 제 시 하기 위해 언제 나 련속적 으로 진행 된다. 

무일관성원인 캐쉬무일관성은 아래에서 서술한바와 같이 3가지 가능한 원인을 가진다. 
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이 원인들을 캐쉬일관성조종이 없는 공유기억기2중처 리기체 계 에서 간단한 실례 를 들 
어 설명하자. 

매 처리기는 전용캐쉬를 가진다. 우리는 WT 와 WB 개쉬들에 대한 영향을 각각 고찰 
한다. 

WT 캐쉬의 경우에 기억기캐쉬행은 캐쉬에서 가장 최근의 변경과 언제나 일치한다. WT 캐 
쉬는 매 쓰기다음의 기억기를 갱신하는데 더 많은 모선주기를 소비한다. 

WB 캐쉬의 경우 기억기복사는 교체가 일어 날 때까지 갱신되지 않을것이다. 그러므로 기 
억기에서 캐쉬행은 캐쉬에서 쓰기적중다음에 즉시에 캐쉬복사와 차이날수 있다. 

기억기후쓰기는 그렇게 하는것이 절대적으로 필요할 때까지 지연된 련속쓰기이다. 

그러 므로 WB 캐 쉬 는 기 억 기 모선에 서 실 행 하는데 보다 경 제 적 이 다. 

실 례 5.2. 공유자료쓰기 에 의한 무일 관성캐 쉬 들 

캐쉬쓰기 전과 후에 캐 쉬 상태 에서 의 변화를 그림 5-2 에 제 시한다. 

갱신전에 두개 처리기에서 두개 캐쉬복사好로 표시됨)는 캐쉬행 X 와 공유기억에서 
일 치 한다고 가정한다. 

WT 캐쉬를 리용하여 처리기 마가 그것의 캐쉬복사를 X’ 로 변화시킨후 기억기복사도 
X’ 로 변화되 여 다른 캐쉬복사와 차이 나게 한다. 



nn iyi 

풍 중 


공유기 혁 겨 


갱44 련속쓰기 후쓰기 

그림 5-2. 쓰기 가능한 자료공유에 의한 캐 쉬 무일관성 


련속쓰기 


WB 캐쉬 의 경우에 캐쉬 1에서의 변화는 캐쉬 2 혹은 기 억기복사에서 변화를 일으키 
지 않으며 그것 들은 캐 쉬 1에 서 의 가장 최 근의 쓰기 와 차이난다. 

이 실례는 명백히 캐쉬들을 무효로 하거나 매 패쉬쓰기동작후에 그것들을 즉시에 갱 
신할 필요를 보여 준다. 왜 냐하면 쓰기가능한 자료는 흔히 다중극소형처 리기체계 에서 공 
유되기 때문이다. 

실례 5.3. 프로쎄 스이동에 의한 무일관성캐쉬들 

이제 마가 기 억 기 에서 기 준 표의 캐 쉬복사를 가진다고 하자. 

마에서 P 2 에 로 프로쎄 스이동후 P 2 은 같은 기준에 새 로운 내 용 모를 쓴다. 

이것은 그림 5-3 중간에서 보여 준바와 같이 WT 캐쉬들을 리용하는데서 캐쉬 1과 기 
억기사이의 불일치성을 초래할것 이 다. 

다른 한편 WB 캐쉬 들이 오른쪽에 서 보여 준바와 같이 리 용될 때 이 동이 후쓰기 동작 
앞에 서 진행 된다면 낡은 값 표는 읽 기 동작을 통하여 캐쉬 2로 이 동될수 있 다. 
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그림 5-3. 처리기이동에 의한 캐쉬무일관성 


두가지 경 우에 프로쎄 스이 동은 캐쉬무일 관성 을 일 으킨다. 


실 례 5.4. 캐 쉬 를 무시하는 I / O 동작들에 의한 무일 관성 

입구/출구동작들은 그림 5-4 에서 보여 주는바와 같이 무일관성을 일으키는 캐쉬를 무시 
할수 있 다. 여 기 서 I / O 통은 WT 캐 쉬 를 리 용하는 입 구장치 와 WB 캐 쉬 를 위 한 출구장치 이 다. 
초기에 두 캐쉬복사들은 기억기 에서 캐쉬행과 일치한다. 

입 구장치 는 새 토운 내 용 X ' 를 가진 기 억 기 기 준을 적 재 할수 있 는데 두 캐 쉬 복사의 
어느 하나와도 차이가 나지 않게 한다. 



기억끼 I/O 주기억기 (입구) ■■:幻억겨、 (♦구> 

련속쓰기 후쓰기 

그림 5-4. 캐쉬를 무시하는 1/0 동작에 의한 무일관성 

WB 캐쉬 들을 가진 출구인 경 우에 캐 쉬 1은 수정 될수 있지 만 낡은 값 X’ 는 출구장치 
로 읽 는다. 

넘 기 기 되 고 있는 통보문은 I / O 동작들의 변화에 대 해 캐쉬 조종기 가 주의 를 돌리 도록 
하는것 이 다. 

5. 2. 2. Snoopy 일관성규약 


우의 실례 들은 극소형처 러기환경 에서 공유자료，프로쎄스이동, FO 동작들의 쓰기 에 
어 떤 일 관성 규약을 적 용할 필요를 암시한다. 

공동모선에 련결된 각이한 처리기들에 의해 접근된 전용캐쉬들을 리용하는데서 두 
클라스의 일관성규약은 쓰기-무효규약과 쓰기-갱신규약이다. 

본질 적 으로 쓰기 -무효규약은 국부캐 쉬복사가 갱 신될 때 다른 모든 캐쉬복사들을 무 
효로 한다. 

쓰기 -갱 신규약은 같은 기 준주소를 가진 다른 모든 캐 쉬복사를 갱 신하기 위 해 새 로운 
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캐쉬복사를 방송한다. 


[ \ 공유기 억 기 


$ $ — $채쉬복사 

© © ᄏ러기 © 


된 I 

© (古〉 


노) 처리기 F% 에 의한 쓰기무효후 


衰 衰 ••• 衰 


t) 처러기 에 의한 쓰기갱신후 

그림 5-5. 후쓰기 캐 쉬 들을 리 용하는데 서 쓰기 -무효와 쓰기 -갱 신 Snoopy 규약들 
( x : 원래 캐쉬복사, x ’ : 수정된 캐쉬행， I :무효된 케쉬행) 


이 캐 쉬일관성규약은 Snoopy 모선들의 리용으로 실행된다. 

Snoopy 규약들은 모선 혹은 고리 에 의 해 보장된것 과 같은 방송 ( broadcast ) 기 구를 요구 
한다. 

기 본방법은 처 리기와 기 억기모줄사이의 모선을 통과하는 캐쉬 사건들을 계속 감시 하기 
위 한 모선을 설계하는것 이 다. 이 런 의 미 에서 Snoopy 일관성 규약이라고 부론다. 

WB 캐 쉬 의 경 우에 대 한 두개 의 Snoopy 규약들을 그림 5 - 5에 제 시한다. 

WT 캐 쉬 들을 리용할 때 단지 차이 는 매 쓰기 동작다음 기 억 기 기 준을 갱 신하는 시 간측 
정에 있다. 


쓰기 -무효규약 그림 5-5 가 )에 서 캐 쉬행 x 에 대 한 3개 의 캐 쉬 복사들의 존재 를 보여 
준다. 

처리기가 표에 쓰러고 할 때 먼저 x 에 접근하기 위한 배타적인 권한이 있어야 한다. 
그다음 새로운 내용 X’ 로 캐쉬행을 쓰고 다른 처리기에서 X 의 모든 패쉬복사를 무효로 
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한다. 

WB 캐쉬에 대하여 기억기준은 그림 5-5 1~) 에서 보여 준바와 같이 역시 무효로 된다. 

WT 캐 쉬 가 리 용되 면 기 억 기 기 준은 변 화된 값 X’로 즉시 에 채 워 진 다. 

무효된 캐쉬복사들은 그림 5-5 !•) 에서 I 로 표시한다. 어떤 다른 처 리 기가 변경된 캐 
쉬행 X’에 접근하려 할 때 WT 가 리용되면 처리기 마의 캐쉬복사로부터 캐쉬비적중을 찾 
고새로운 값 X’를 얻을것 이 다. 

WB 캐쉬 가 쓰인 경 우에 새 로운 값을 변경 된 캐쉬 로부터 다시 찾을것 이 며 기 억 기 기 
준은 동시 에 채 워 진 다(갱 신된 다.). 

쓰기갱 신 규약 이 경우에 처 리기는 캐쉬행 표에 쓰고 모든 처 러기들에서 표의 모든 캐 
쉬복사를 갱 신하여 야 한다(즉 새 로운 값 X’를 x 의 모든 캐쉬복사에 방송하여 야 한다). 어 
떤 다른 처리기가 새로운 캐쉬복사 X’에 접근하려고 할 때 그림 5-5 비에서 보여 준바와 
같이 그것의 국부캐쉬에서 패쉬적중 (hit) 을 만나고 새로운 값을 찾을것이다. 

기 억 기 기준은 그림 5-5 n) 에서 보여 준바와 같이 WB 캐쉬 리용으로 갱 신될것 이 다. 
그러나 기억기 역시 실행선택에 따라 즉시 갱신될수 있다. 

명백히 쓰기-갱신규약은 언제나 일관성정도를 더 높인다. 그러나 쓰기갱신은 비용이 
많이 드는 동작이 다. 즉 쓰기갱신은 기 억기 에서 캐쉬행은 물론 모든 캐쉬들을 갱신하기 
위한 모선주기 들을 더 많이 소비할수 있 다. 

그러 므로 대 부분의 다중처 리 기설계 자들은 WB 캐 쉬 를 리용하는 쓰기 -무효캐쉬일 반성 
규약을 선 택한다. 

다음절에서 MESI 무효규약을 고찰하게 될것 이다. 

기 억기모선에서 Snoopy 규약외에 캐쉬 일관성은 주로 NUMA 혹은 DSM 모형을 가진 망 
으로 련결된 다중처 리기들에서 등록부에 기초한 규약들에 의해 만족될수 있다. 

5. 2. 3. MESI Snoopy 규약 

MESI 는 쓰기-무효 snoopy 규약이 다. 그것은 캐쉬행 상태의 추적을 보존하며 모든 읽기 
혹은 쓰기, 캐쉬적중 혹은 캐쉬비적중 그리 고 모선에서 검 측된 snoopy 사건들을 고찰한다. 

여기서는 그림 5-6 에서 보여 준 Pentium 에 기초한 다중처리기에서 실행되는 MESI 
규약을 례로 하여 고찰한다. 

Pentium MESI 는 외 부신호에 의 해 조종되 는 WB 와 WT 캐 쉬 사건들을 지 원한다. 규약 
은 비-쓰기-배당방법을 선택하는데 쓰기비적중의 기억기로부터 캐쉬행충족이 없다는것을 
의 미 한다. 

MESI 규약은 4 개 상태 이행 도표인 그림 5-7 에 서 보여 준다. 

모든 기 억기사건들과 Snoopy 신호들은 상태 들사이의 가지(호)에 대 응한다. 도표에서 
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그림 5-6. 2 차캐 쉬 를 가진 2 중 Pentium 다중처 러 기 



그림 5-7. Pentium 에 기초한 다중처 리기 에서 자료캐쉬를 위한 


MESI 규약의 상태 이행 도표 


3개 의 가능한 이 행 가지 를 볼수 있다. 

굵은 점 선은 WT 규약에만 적 용한다. 얇은 점 선은 WB 캐쉬 사건에 만 적 용한다. 실선은 
WB 혹은 WT 규약에 대한것이다. 자료캐쉬에서 매 기준은 다음과 같은 4개의 가능한 상 
래중의 어느 하나이 다. 

• 변경 ( Modified , M 상태) 캐 쉬 행 이 캐 쉬 에서 국부처 리 기 에 의 해 쓰기 적중으로 갱 
신되 였 다. 
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• 배제 (Exclusive, E 상태) 캐쉬 가 유효이 고 어떤 다른 캐쉬 에서 유효가 아니 다. 
더우기 기억기기준은 아직 갱신되지 않았다. 

• 공유 (Shared, S 상태) 기 준이 유효이 지 만 하나 혹은 그이 상의 원격캐 쉬 혹은 기 
억 기의 캐쉬행 에서 유효가 될수도 있다. 

• 무효 (Invalid, I상래 ) 이 것 은 재 설 정 다음의 초기 캐 쉬 상태 이 거 나 케 쉬 행 이 같은 
주소를 가진 다른 캐 쉬 로 인한 쓰기 적 중에 의해 무효되 였 다. 

MESI 라는 이름은 우의 4개 상태의 첫 글자로부터 만든것이 다. 한 상태에서 다른 상 
태 에로의 이 행은 국부처 리기읽기，쓰기 혹은 다른 주모선으로 초기화된 외부 Snoopy 동작 
에 의해 일 어 난다. 

무효명 령 (INVD 혹은 WmNVD ) 리 용은 프로그람작성 자들에 의 해 초기 화된 다. 이 것 은 
재 기 동 혹은 문맥 절환에 서 체 계 프로그람작성 자들이 캐 쉬 를 려 기 시 키 기 위 한 선택 권을 제 
공한다. 

사용자프로그람은 보통 이 명 령 들을 리용하지 않도록 한다. 

여러가지 각이한 Snoopy 규약들을 명백히 하기 위하여 표 5-3 에 그림 5_7의 모든 
MESI 상태이행에 대응하는 캐쉬사건들과 snoopy 사건들을 요약하여 제시하였다. 


표 5-3 _ 캐쉬사건들과 snoopy 모선사건들 


사건기호 

사건，동작，결론의 해석 

M 

변경:오물복사;읽기 혹은 쓰기적중; 

무효가 되면 요구되는 후쓰기 

E 

배제:단독복사;읽기 적중, 

국부쓰기다음에 M 상태로 변환 

S 

공유:청소복사;읽기적중,다른 캐쉬를 무효시키기 위한 쓰기; 2 개이상의 

복사가 WB 캐쉬사건을 위한 체계 에 존재한다. 

I 

무효:캐쉬되지 않은，읽 기 혹은 쓰기 비적중 

R 

국부읽기동작 

w t 

WT 캐쉬기준에 국부쓰기 

w b 

WB 캐쉬기준에 국부쓰기 

R 

읽기에서 외부 snoopy 적중 

W 

쓰기에서 외부 snoopy 적 중 

/F 

주기억기로부터 이 캐쉬기준을 충족한다. 

，B 

후쓰기:모든 캐쉬들을 무효하고 주기억기를 갱신 

INVD 

자기 캐 쉬를 려기시 키는 체 계 지 령 

WBINVD 

후쓰기다음에 자기캐쉬를 려기시키는 체계 지령 

X 

INVD 혹은 WBINDB 혹은 광의 사건결합 


















그림 5-7 은 WT 와 WB 캐쉬사건들의 지원이 있을 때 두개 이행도표의 결합을 보여 주는 
것 인 데 하나는 WT 캐 쉬 사건 에 대 한것 이 고 다른것 은 WB 캐 쉬 사건 에 대 한것 이 다. 

그것들은 일부 상태와 이행가지를 공유한다. 

간단하고 명백히 하기 위하여 이 두가지 경우들을 각각 서술한다. 

련속쓰기 규약 WT 캐 쉬행 에 대 하여 초기상태 는 I 이 고 다른 가능한 상태 는 S 만이 다. 
비적중이 있을 때 순수한 캐쉬행은 주기억기 혹은 다른 캐쉬에서 나오고 캐쉬행은 공유 
상태에서 끝난다. 모든 이행들은 이 두 상태들에서 닫긴다. 그림 5-7 의 웃절반에 있는 S 
와 I 그리고 굵은 점선과 실선이행을 가지고 이루어 진 두 상태부분그라프를 WT 캐쉬사 
건에 대 한 SI 규약이라고 부론다. 

개 쉬 행 은 읽 기 비 적 중다음에 캐 쉬 로부터 채 워 질것 이 다. 

또한 다른 처러기들은 어떤 처러기가 이 기준을 다시 쓸 때까지 이 기준을 읽고캐 
쉬 할수 있 다. 

이 쓰기동작에 따라 쓰기처리기는 먼저 모든 다른 캐쉬복사를 무효로 한 다음 새로 
운 자료들을 자기의 캐쉬와 기 억기 에 로 련속쓰기한다. 

쓰기상태는 S 상태에 머물러 있고 다른것들은 무효상태 I 로 간다. 

후쓰기캐쉬들 WB 캐쉬에서 기준은 E 상태의 캐쉬행으로 넘어 가는데 이것은 체계에 
서 유일한 캐쉬복사라는것을 의 미한다. 하나 혹은 그이상의 처 리 기들이 이 블로크를 읽 
고 캐쉬한 다음 그것의 모든 상태들은 S 로 변화하는데 이것은 두개 혹은 그이상의 캐쉬 
복사가 존재 한다는것 을 의 미한다. 

WT 와 류사하게 국부쓰기가 S 상태에서 일어 날 때 쓰기동작은 모든 다른 상태를 무 
효로 하고 자기 상태를 M 으로 변화시 킨다. 

M 상태는 다른 처리기가 읽기 혹은 쓰기를 요구할 때 후쓰기필요가 있는 캐쉬행을 
가리 킨다. 

그러 나 그것 이 일 어 나기전에 국부처 리 기는 다른 캐쉬 들에 통보함이 없 이 기 준을 임 
의 로 읽기 혹은 쓰기할수 있다. 

외부 Snoopy 사건들에 대해서는 아주 강하다. 

모든 원격쓰기는 다른 캐쉬들을 I 상태(필요하면 먼저 후쓰기)로 변화시킨다. 모든 원 
격읽기는 S 상태 에서 적중한다. 

무효 I 상태 에 서 밖으로 나가는 쓰기 가지 는 Pentium 의 비쓰기 -배 당법때 문에 없 다. 


WB 캐 쉬 를 위한 MSI 규약 MESI 규약을 리해 하기 위하여 그림 5-7 을 더 세밀히 관찰 
하자. 

E 상태 를 단일 S 마디를 가진 S 상태 와 결합한다면 WB 캐쉬 에서의 사용자만을 위한 3상 
태 MSI 규약을 엄을수 있다. 

MESI 상태도표로부터 MSI 부분상태도표를 뽑으면 다음과 같은 식이 얻어 진다. 


(5.9) 
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캐 쉬 준위 의 단독복사상태 애 대 응하여 

及一, (5.10) 

두개 혹은 그이상의 캐쉬복사가 존재한다는것을 지적하면 
w h 

S —— 느ᅥ M . (5.11) 

WB 동작에 대 응하는것은 첫번째 쓰기 에서만 출현하고 그다음의 쓰기 들에서 는 출현 
하지 않는다. 

직관적으로 식 (5.11) 은 다음읽 기전에 하나 혹은 그이상의 처 리 기들에 의해 같은 준 
위에 다중쓰기가 있을 때 한번 쓴다는것을 의미한다. 

WT 캐 쉬 들을 위한 SI 규약 3-상태 MSI 규약을 WT 캐 쉬 들을 위한 2-상태 SI 규약으로 
간단화할수 있다. 

지 어 1- 상태규약도 가능하므로 캐쉬가 전혀 없는것도 있다. Snoopy 규약에 대하여 일 
관성규약의 상태수는 공유정도에 따라 캐쉬준위를 분류하는 용량을 표현한다. 

Snoopy 규약들의 개괄 여기서는 여러가지 형태의 캐쉬들과 여러가지 준위-채우기 그 
리 고 쓰기-배 당방법 에 대 한 세 가지 Snoopy 쓰기-무효규약들을 고찰하였다. 

일반적으로 보다 많은 상태들이 일관성규약을 사용할수록 캐쉬사건들을 보다 가능한 
이 행 들로 분리할수 있 다. 물론 비 용이 높을수록 실 행효률성 에 의해 보다 복잡한 규약들 
에 귀착될것이다. 

WT 방법은 1차자료캐쉬에서 언제나 쓰이고 WB 는 언제나 2차캐쉬에서 기억기에로 
쓰인다는 가정 하에 서 그림 5-7 에 렬거 된 MESI 규약을 조금 변경 시켜 2차캐쉬 에 적 용할 
수 있다. 


5. 3. 공유기억기일치성 

공유기억기의 읽기와 쓰기는 기억기사건들이 정확히 순서화되지 않는다면 일치성문 
제 에 맞다들린다. 이 문제를 처 리 하기 위하여 유효기 억기모형 이 공유기 억기 다중처 리기들 
을 위해 개 발되 여 야 한다. 그러 한 모형은 병 렬프로그람의 이식성은 물론 성능，정 확성프 
로그람화가능성 에 영향을 준다. 

5. 3. 1 . 기억기사건의 순서화 

일치성문제는 같은 혹은 각이한 처리기들에 의해 시작된 읽기/쓰기사건들의 각이한 
순서화로 인하여 생긴다. 

여기서는 기본개념들을 설명하고 실례를 통하여 조종되는 일치성을 얻을 필요를 설 



명 한다. 

공유기 억 기동작은 프로그람순서 와 기 억 기 접 근순서 에 의 해 결정 된다. 


기 본개 념 다중처 리 기 에서 병행 명 령 흐름들은(스레 드 혹은 프로쎄 스들) 각이 한 처 리 기 
들에서 동시에 실행할수 있다. 

한 프로쎄스에 의해 수행된 기억기사건틀은 다른 프로쎄스들에 의해 쓰인 자료를 창 
조할수 있다. 기억기사건들은 공유기억기의 읽기 혹은 쓰기에 대응한다. 기억기일치성모 
형은 한 프로쎄스에 의해 시작된 기억기사건들이 기계에서 다른 프로쎄스들에 의해 어떻 
게 관측되여야 하는가를 규정한다. 

사건순서화는 몇가지 프로쎄스들이 같은 기억기장소모임접근을 위해 경쟁할 때 어느 
기억기접근이 주어 진 시간에 허용되고 어느 기억기가 다음의 접근을 기다려야 한다는것 
을 선언하는데 쓰일수 있다. 

주어 진 일치성모형에 의하여 생성된 기억기순서는 병행프로쎄스들의 정확하고 속도 
가 빠른 실행을 위하여 다중처리기들의 특정한 순서로 기억기에 접근하도록 지시한다. 



-I) 단연이I과기제제 


1_> 다장처패기과꽤 


그림 5-8. 단일처 리 기체 계와 다중처 러 기체계 에서 기 억기 


순서 에 대 한 프로그람순서 

다중처리기에서 기억기사건들 그림 5-8 1) 에서 보여 준바와 같이 단일처리체계는 기 
억기순서를 결정하는 순차프로그람순서를 따른다. 기억기에 대한 읽기는 언제나 마지막쓰기 
를 같은 장소에 복귀한다. 그러나 이것은 MIMD 다중처리기의 경우는 아니다. 


215 








































관계되 는 병 행 프로그람들을 실행 하는 다중처 리체계 를 리 용하는데 서 국부의 존성 검사 
는 필요하지만 병행실행의 결과를 유지보존하는데는 충분하지 않을수 있다. 

이것을 그림 5-8 L ) 에서 보여 준다. 여기서 3개 명령흐름들은( I ， J , K ) 단일포구절환 
조종을 통해 공유기 억 기 에 접 근하는 읽 기 /쓰기 요청 을 발행 하기 위 해 경 쟁 한다. 

실행결과의 정 확성 과 예 측가능성 을 유지 하는것은 다음과 같은 러유로 하여 MIMD 
다중처 리 기 체 계 들에 서 는 매 우 복잡하다. 

개 별적 인 명 령흐름의 프로그람순서 는 그들사이 의 호상작용때 문에 변경 될수 있다. 
명 령흐름들사이 에 동기 화가 존재하지 않으면 많은 량의 명 령엇끼 우기 가 가능하다. 최 량 
전역기억기순서를 찾는것은 어려운 문제이다. 

접근들이 캐쉬에 기초한 체계에 존재하는 갈은 자료의 다중복사로 많이 일어 나면 
각이한 처 리 기들은 각이한 순서 화를 개 별적 으로 관측할수 있다. 이 경우 다중프로그람의 
가능한 동시성의 총체적수는 훨씬 커진다. 

실 례 5.5. 3-처 리 기 체 계 에 서 기 억 기 사건 순서 화 

공유변수들은 초기 에 령값을 가진 모임 이 다. 

매 흐름에서 인쇄지령문이 혼돈을 피하기 위해 같은 주기동안 두가지 변수들을 나누 
어 지지 않게 읽는다고 가정하자. 

전역기억기순서화를 검사하기 위하여 프로그람순서로 P h P 2 , 。을 련결시켜 6-조의 
2진렬 을 형 성한다. 

그러면 2 6 =64개의 가능한 출구결합이 나온다. 

모든 처 리기들이 자기의 프로그람순서로 명 령들을 실행한다면 순서 ( a 必, c , 成 e ,/) 는 
출구렬 001011을 생성한다. 다른 엇끼우기를 하면 必,成/)는 역시 개별적 인 프로그 

람순서 를 보존하고 다른 출구렬 111111을 생 성한다. 


처리기 1 처러기 2 처려기 3 
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그림 5-9. 3 개 처 리기들에 의해 비동기적 으로 시 작된 쓰기 그러 고 
인쇄 동작을 가전 3 개 프로그람실 행 







처리기명령들을 프로그람순서에서 벗어 나서 실행하도록 하면 재순서화된 명령들 
속에 자료의 존성 이 존재 하지 않는다고 가정 할 때 엇 끼 우기 ( b ， d ， f ， e ， a ， c 、) 는 출구렬 
00000을 생성한 6!=720개 의 가능한 순서렬에서 90개 만이 개 별적 인 프로그람순서 를 보 
존한다. 이 90개의 엇끼우기들로부터 모든 6-조결합들이 정확히 실행된다고는 보지 
않는다. 

실 례 로 처 리 기 들이 명 령 들을 프로그람순서 대 로만 실 행 한다면 결과 000000는 가능하 
지 않다. 

다른 실례로 결과 0 U 001 은 각이한 처리기들이 각이한 순서로 기억기사건들을 관측 
할수 있으면 허용된다는것을 보여 준다. 이 실례는 기억기일치성을 완화시켜 공유기억기 
에 접근하는데 거의 제한을 주지 않을수 있다는것을 명백히 보여 준다. 

5. 3. 2. 기억기일치성모령 

단일처 리기 혹은 다중처 리기들은 아래에서 특징 짓는바와 같이 순차일치성모형에 의 
존된 다. 

약한 일치성, 처리기 일치성 그리고 해제 ( release ) 일치 성공유기 억 기모형을 얻기 위 하여 
순차제한을 완화할수 있 다. 

우의 실례 로부터 알수 있는바와 같이 두개 의 각이한 처 리 기의 읽 기, 쓰기순서 는 큰 
차이가 있다. 그러므로 상대적인 사건순서화는 기억기일치성모형을 정의하기 위해 아래 
와 같이 진행하여 야 한다. 

순차일 치성 이 기 억기 일치성모형 은 모든 처 리 기들에 의한 읽기, 쓰기, 교체 들이 개 
별적 인 처 리기들에서 프로그람순서 에 따르는 단일전역기 억기순서 에 따라 직 렬로 실행할것 
을 요구한다. 이것은 명 령흐름들이 어 떻게 엇끼우기되는가에 관계 없이 대 역순서는 모든 개 
별적 인 프로그람순서 들을 보존하여 야 한다는것 을 의 미 한다. 

정 의 5.1 Lamport [391] 은 실 행 결과가 모든 처 리 기 들의 동작이 어 떤 순차순서 로 실 행 
되 였고 매 개 별적 인 처 리 기의 동작은 자기 프로그람에 의해 지정된 순서 에 따라 차례 로 
출현한것 과 같다면 다중처 리 기 체 계 를 순차적 일 치 ( SC ) 체 계 로 정 의 하였 다. 

SC 기억기모형은 다중처리기에서 병렬성을 개발할 때 프로그람의 최량화를 요구하지 
않는다. 실례로 다음의 프로그람에서 쓰기와 읽기는 두 처리기들에 상주하는 프로그람순 
서에 제한되지 않는다. 

약한 일치성 Dubois , Sxheurich 와 Brigg 들은 [218] 기억기순서를 프로그람의 동기화점 
과 관련시켜 약한 일 치 성 ( WC ) 기 억 기 모형 을 유도하였 다. 이 모형 은 다음과 같은 3개 의 기 
억기접근조건으로 규정된다. 

(1) 이전의 모든 동기화접근은 읽기 혹은 쓰기접근이 어떤 다른 처리기에 관해 허용 
되기전에 수행되여야 한다. 
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(2) 이전의 모든 읽 기, 쓰기접 근은 동기 화접근이 어떤 다른 처 리기 에 대 하여 수행되 
기전에 수행되여야 한다. 

(3) 동기 화접 근은 어 떤 다른것 에 대 하여 순차적 으로 일 치한다. 

이 조건들은 다중처 리 기 에서 기 억 기접 근사건의 약한 순서 화를 제 공한다. 순차적 순서 
화는 하드웨어-인식동기변수들만으로 제한된다. 두 동기화점들사이의 모든 읽기/쓰기동작 
은 프로그람순서를 따르지 말아야 한다. 

이것은 동기화동작의 부분인 쓰기제외한 재순서화된 쓰기동작의 완충을 위한 기회 를 
열어 준다. 

다중처 리 기들에서는 기 억기접 근을 완충시켜 관흐름화된 기 억기접근을 가능하게 할수 
있 다. 


처 리기 일치성 Goodman [273] 은 매 개 별적 인 처리기 에 의 하여 발행된 쓰기들이 언제 
나 프로그람순서 에 따르는 처 리기일치성 ( PC ) 모형 을 도입하였다. 

그러 나 각이한 처 리 기들로부터 의 쓰기 들은 프로그람순서밖에 있을수 있 다. 다시 말 
하면 쓰기들에서 순차일치성은 매 처리기에서 관측되지만 매 처리기에서의 읽기순서는 
다른 처리기들을 포함하지 않는 이상은 제한되지 않는다. 

PC 모형 은 각이한 처 리 기 들로부터 쓰기 에 대 한 일부 제 한을 제 거 함으로써 SC 모형 을 
완화시켜 얻는다. 

이것 은 쓰기완충과 관흐름화를 위 한 더 좋은 기회 를 준다. 

다른 처리기들과 관계되는 다음의 두 조건들은 처리기일치성을 담보하기 위해 요구 
된 다. 

어떤 다른 처러기에 대하여 읽기가 수행되기전에 이전의 모든 읽기접근들은 수행되 
여야 한다. 

어떤 다른 처리기에 관해 쓰기가 수행되기전에 읽기 혹은 쓰기접근들이 수행되여야 
한다. 

이 조건틀은 읽기 가 쓰기 를 동반하도록 하여 쓰기 를 무시한다. 

교착을 피 하기 위하여 실행 은 프로그람순서 로 이전에 출현한 쓰기 가 득 수행 될것 이 
라는것을 담보하여야 한다. 

해제 일 치성 해제 일 치 성 ( RC ) 모형 은 Gharachorloo 등에 의 해 도입되 였다 [264]. 해제 일 
치성은 프로그람에서 동기화접근들이 획득 ( lock , 차단) 혹은 해제 ( unlock , 비차단)로 식별 
될것을 요구한다. 

획득 ( acquire ) 은 읽기 동작(읽기-변경-읽기의 부분으로 될수 있 다.)인데 자료모임에 접 
근하는 허 가를 준다. 

해 제 는 그러 한 허 가를 포기 하는 쓰기 동작이 다. 

이 정보는 동기화점들사이의 기억기접근을 완충화하고 관흐름화하는 유연성을 보장 
하는데 쓰인다. 

완화형기억기모형의 기본우점은 가능한 많은 쓰기지 연시 간을 은폐함으로써 더 좋은 
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기 억 기성능을 얻는것 이 다. 기 본결합은 보통 사용자들에 게 하드웨 어복잡성 과 프로그람작 
성 모형 의 복잡성 을 증대 시 킨다는것 이 다. 

다음의 세 가지 조건들은 RC 공유기억 기 모형 을 담보한다. 

• 보통의 읽기 혹은 쓰기접근이 어떤 다른 처리기에 대하여 허용되기전에 이전의 
모든 획득접근들을 수행하여 야 한다. 

• 해제접근이 어떤 다른 처리기에 대하여 수행하는것이 허용되기전에 이전의 모든 
보통읽기와 기억접근들을 수행하여야 한다. 

• 전용접근은 다른것과 처 리기 에서 일치한다. 약한 일치성 에 의한 순서화제한틀은 
해 제 일 치 성 에 서 는 존재 하지 않는다. 대 신 RC 모형 은 처 리 기 일 치 성 을 요구하지 만 
순차일치성은 요구하지 않는다. 

Nltzberg 와 Lo [468] 은 우의 4개 기 억기 일 치성 모형 들사이의 관계를 그림 5_10에서와 
같이 특징 지 었다. 

RC 모형은 그림 5-10 에서 보여 준바와 같이 PC 와 WC 모형의 우점들을 결합하였다. 
RC 기억접근은 그것이 완료될 때까지 처리기가 획득접근하는것을 막는 (1) 에 의해 규정 
될수 있으며 이 전의 모든 접 근들이 완료될 때 까지 해제접 근완료를 지 연시키는 (2) 에 의 
해 만족될수 있다. SOIl 비한 RC 모형실행 비 용은 차단해제 를 제 공하고 미 해 결된 다중 
요청 들의 추적 을 보존하는데 필 요되 는 외 부하드웨 어 /쏘 프트웨 어 로부터 생 긴다. 이 비 용 
은 비록 무시할수 없지만 같은 특징들이 미 러꺼 내기와 다중문맥을 지원하는데 역시 요 
구된 다. 



그림 5-10. 4 개의 기억기일치성 모형들의 직관적정의들 
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5. 3. 3. 완화형기억기모령 

완화형기 억모형의 기 본목표는 캐쉬 일관성 조종의 부가처 리를 완화시 키는것 이 다. 일관 
성부가처 리 에서 감소는 프로그람실행 의 정 확성을 유지해 야 한다. 완화형기 억모형은 다음 
과 같은 두가지 특성을 가지고 있다(: [8]). 

• 기억모형은 두개의 쓰기사이에 쓰기로부터 쓰기에 뒤따르는 읽기로 그리고 읽기 
로부터 읽 기로 혹은 읽기 에 뒤따르는 쓰기로의 순서를 어떻게 완화시키는가 하는 
데 기 초하여 차이 가 생 긴다. 이 완화는 각이한 주소를 가진 동작쌍에 만 적 용하며 
비캐쉬구성 방식의 순차일관성 에 대한 최 량화와 류사하다. 

• 어떤 기억모형들은 쓰기가 다른 모든 처리기들에 명백하게 진행되기전에 읽기가 
다른 하나의 처 리 기의 쓰기 값을 복귀하게 한다. 

이 완화는 캐쉬에 기초한 체계에만 적용한다. 

상품화된 기 억모형 들 완화형 기억기 일치성모형 들은 각이한 장소에 대 한 모든 동작 
들사이의 프로그람순서를 완화시켜 읽기 혹은 쓰기가 뒤따르는 읽기 혹은 쓰기 에 대하여 
재순서화하도록 한다. 따라서 그것들은 순차일치성을 위반할수 있다. 

읽 기 동작다음의 기 억 기 동작들은 읽 기 에 대 하여 중복되 거 나 재 순서 화될수 있 다. 이 
우연성 은 하드웨 어 가 읽 기 지 연시 간을 정 적 (순서 ) 혹은 동적 (비순서 )으로 일 정 짜기 된 처 리 
기로 은폐시키게 한다. 

6개의 완화형 기억기 모형들을 표 5-4 에 제시한다. 

그 6개모형 을 보면 약한 순서 화 ( WO ) 모형，두개 의 해제 기억모형 (11(:와 RC pc ) 그리 고 
Digital Alpha , Sparc RMO , IBM Power PC 에서 리용한 3개의 모형들이 다. Alpha 를 제외한 
이 모형 들은 역 시 같은 장소에 대 한 두개 의 읽 기 를 재 순서 화하여 야 한다. 

표에서 X 는 주어 진 기억기모형의 실행에서 완화가 허용된다는것을 가러킨다. 또한 
완화가 프로그람결과에 트랜잭션함으로써 프로그람작성자에 의 해 검측될수 있다는 것을 
가리 킨다. 

그러 나 읽 기 - own- 쓰기 - early 완화는 SC, WO, Alpha 혹은 Power PC 모형 들로는 검 측되 
지 않는다. 

읽 기 - others - 쓰기 - early 완화는 가능하며 RC sc 모형 의 복합실 행 으로 검 측될 수 있 다. 공 
백칸은 접근제 한들이 주어 진 기 억기모형 에 적용되지 않을 경우들에 대응한다. 

완화형기 억 일치성모형은 순차일치성모형보다 더 좋은 성능을 얻기 위해 설계되 였다. 
[8] 에 따르는 기억기와 통신속도에 관계되는 처러기속도에서의 증가는 이 모형들로부터 
가능한 러득을 엄는다. 하드웨 어성능에서 리득을 보는것외 에 완화기 억기 일치성모형틀은 
콤파일러최량화를 가능하게 하는메서 중요한 역할을 한다. 이러한 리유들로부터 Digital 
Alpha , Sun Sparc 그리 고 IBM Power PC 등과 같은 많은 상업적구성 방식들은 표 5_4에서 
와 같이 완화형 일 치 성 을 지 원 한다. 

매 개의 자세한 해석은 표 오른쪽마지 막란에 있다. 
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표 5-4 _ 여러가지 완화형 기억일 치성 모형들 


해제 

기억기 

W_ _>R 

Order 

W_ _>W 

Order 

R_ _>RW 

Order 

읽기- 

Others- 

쓰기- 

Early 

읽기- 

쓰기- 

Early 

보안 

Nets Ref. 

SC 

X 




X 

No[391] 

IBM370 

X 





[341] 

TSO 

X 




X 

[539] 

PC 

X 



X 

X 

[264] 

PSO 

X 

X 



X 

[579] 

WO 

X 

X 

X 


X 

[218] 

RCsc 

X 

X 

X 


X 

Nsync, 

[264] 

RCpc 

X 

X 

X 

X 

X 

Alpha 

X 

X 

X 


X 

MB,WMB,[ 

563] 

RMO 

X 

X 

X 


X 

MEMBARs 

,[579] 

PowerPC 

X 

X 

X 

X 

X 

Sync[434] 

대표적인 

통퓨터 

체계 

AlphaServer 

8400， Cray 

T 犯， 

NUMA-Q, 

Center 2000, 

Convex SPP, 

Ultra Servers 

AlphaServer 8400, 

Cray T3D/T3E, 

Convex SPP in WO mode 

Cray 

T3D 

AlphaServer 

8400, 

Cray 

T3D/T3E, 

SparcCenter 

200, Ultra 

Ent, Servers 



보안망들은 암묵적완화들을 무효로 하는 기구를 가리긴다. 

실례로 read - 변경- write 화，여러가지 동기화동작들과 같은 명백한 방어명령틀은 프로 
그람순서완화를 무시하는데 쓰일수 있다. 

캐쉬일관성규약과의 관계 캐쉬일관성규약은 주어 진 기억기일치성모형에 의한 기억 
기 접 근제 한을 관측하여 야 한다. 

실례로 처러기캐쉬 에서 읽기적중을 고찰하자. 

이전의 쓰기동작완료를 기다림이 없이 캐쉬된 값을 읽는것은 순차일치성을 위반할수 
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있다. 캐쉬일관성규약은 새롭게 씌여 진 값을 방송하는 기구를 제공한다. 

기억기일치성모형은 값이 주어 진 처리기로 방송될 때 보충적인 제한을 준다. 

쓰기완료의 검측은 결합된 캐쉬규약/기억기일치성모형의 성공적인 실행에서 결정적 
인 역할을 한다. 

쓰기는 결국 모든 처리기들에서 명백하여야 한다. 같은 장소에 대한 모든 쓰기는 순 
차일치성을 높이기 위하여 모든 처리기들에서 같은 순서로 되여야 한다. 프로쎄스를 갱 
신하는 다중캐쉬는 고유하게 작지 않은 기 억기들이 다. 

쓰기를 매우 작게 유지하는것은 또 하나의 중요한 요구이 다. 

이 러한 론점 들은 실지 체 계 설 계 들에 서 완성되고 있 다. 

틈파일러지원 이것은 최량화의 또 다른 준위를 제공한다. 기본방법은 주어 진 캐쉬 
규약/기억기일치성도식에 의해 주어 진 접근제한을 만족시키기 위하여 기억기동작들을 
재 순서 화하는것 이 다. 

• 첫째 로, 콤파일러는 공유기 억기동작들가운데서 프로그람순서를 보존하여 야 한다. 

• 둘째로，를파일러 에 의한 재순서화는 일치성모형에 의해 주어 지는 접근제한을 
위 반할수 없다. 사실상 이 요구들은 하드웨 어 에 의 한 재순서화에 적 용한다. 

주어 진 기억 기일 치성모형을 지원하기 위 한 명시적 병렬성콤파일러는 암시적 병렬성콤 
파일러작성보다 훨씬 쉽다. 

현재 암시적인 병렬성을 가진 완화형기억기일치성을 지원할수 있는 상업화된 를파일 
러는 없다. 


5. 4. 분산캐수ᅵ/기억기구성방식 


물리적으로 분산된 기억기들은 론러적으로 공유되거나 공유되지 않을수 있다. 과학 
과 공업에서 쓰이는 공유기억기라는 용어는 서로 다른 의미를 가질수 있다. 혼돈을 피하 
기 위하여 공유기억기개념을 명백히 해야 한다. 

먼저 공유기 억 기 구성 방식 을 공유기 억 기 프로그람작성 환경 과 구별해 야 한다. 

공유기 억기구성 방식(다중처 리기)은 공유기 억기와 통보문넘기기 프로그람작성 모형을 
지 원 할수 있 다. 공유기 억 기 프로그람작성 구성 모형 은 공유기 억 기 혹은 비 공유기 억 기 구성 방 
식 (실례 로 다중콤퓨터)에서 실행 될수 있다. 그것 은 일 반적 으로 SMPs 는 공유기억기구성방 
식 을 가지 고 일 반적 인 MPPs 는 가지 지 않는것 과 일 치한다. 바로 그사이 에 많은 분산기 억 
기구성 방식 이 있다. 이 분산공유기억기체계들은 완전히 다른 구성 방식과 프로그람적 인 
특징들을 가지고 있다. 
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5.4.1. NORMA , NUMA , COMA , DSM 모형 

여 러가지 다중처리기들과 다중를퓨터들을 그림 5-11 에 분류하였다. 이 나무분류는 
모든 기억기모형들에 기초하고 있다. 먼저 사용자의 견지에서 몇가지 일반적인 경우들을 
관찰하여 공유기억기구성 방식술어를 명백히 하자. 

어떤 처리기에서 동작하는 프로쎄스가 전체 체계에서 국부 혹은 원격기억기에 직접 
접근할수 있으면 체계는 공유기억기구성방식을 가전다. 

반대 인 경우 비공유기억기구성 방식(다중를퓨터)을 가전다. 여 기서 직접 이라는것은 적 
재 혹은 기억과 같은 명령이 전체 다중처리기체계에서 어떤 기억기장소에 접근할수 있다 
는것 을 의 미 한다. 

기억 기공유는 비공유기 억 기구성방식에서 가능하다. 그러나 원격 기억기접근은 직접이 
아니지만 실행시간 혹은 사용자호출가능한 서고와 갈은 쏘프트웨어층을 통하여 직접이 
가능 하다. 

이것은 접근지연시간에서의 차이로 넘어 간다. 

현재 다중처 리기들은 수백 ns 의 원격접근지 연시간을 가지며 다중를퓨터들은 수십…의 
원격접 근지 연시 간을 가전다. 


중심기억기 대 분산기억기 병렬를퓨터는 중심기억기나 혹은 분산기억기구성방식을 가 
진 다. 분산기 억 기 체 계 들은 비 동일 기 억 기 접 근 ( non-uniform memory access , NUMA ) 과 비 원격 
기 억 기 접근 ( non-remote memory access , NORMA ) 의 구성 방식을 포함한다. 

일부 사람들은 이 체 계들에서 기 억기접근들이 역시 비동일하게 진행 되므로 NORMA 
를 포함하는 보다 넓은 정의인 NUMA 를 리용한다. 중심기억기체계들은 역시 동일기억기 


다중처리기 
단일주소공간기억기 



SMP (Intel SHV, SunFire, DEC 8400, 
SGI PowerChallenge，IBM R60, etc.) 

COMA (KSR-1, DDM) 

CC-NUMA (Stanford Dash, 

SGI Origin 2000, Sequent NUMA Q, 

^ * iral, HP/Convex Exemplar) 

JMAp - n 
…、 i DSM or 

SC-NUMA 


Data Genera 
NCC-NUM 
(Cray T3E, etc) 


(TreadMarks. 
Wind Tunnel, 
IVY ， Shrimp, 


Cluster 

(IBM SP2, DEC TruCluster 
Tandem Hymalaya, HP, 

Microsoft Wol^ack, etc). 

(Loosely coupled) 

MPP (Intel TFLOPS) 

(Tightly coupled) 

그림 5-11. 병렬，분산 그리고 클라스터를퓨터제작을 위한 여러가지 
형래의 기억기구성방식 
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접 근 (umform memory access,UMA) 체 계 로 알려 져 있 다. 

UMA 구성방식에서 모든 기억기장소들은 처리기로부터 같은 거리에 있으며 모든 기 
억기접근들은 대체로 같은 시간이 걸린다. UMA 체계는 두가지 형태 즉 병렬벡토르처리 
기 (PUP) 와 대 칭 다중처 리 기 (SMP) 가 있 다. 

PVP 를 벡토르초고속콤퓨터 라고도 부론다. 

분산기 억기구성 방식 분산기 억기콤퓨터 는 다중마디 를 포함하는데 매개는 하나 또는 
그이상의 처 리기들과 국부기 억기를 자진다. 다른 마디들에서 는 기 억기들을 원격기 억기들 
이라고 부론다. 

몇 가지 형 태 의 분산기 억 기 구성 방식 들은 현재 상업 용 그리 고 연구용병 렬 체 계 들에 서 
쓰 인 다. 그것 들을 보면 NORMA, 비 캐 쉬 일 관성 NUMA(NCC-NUMA), 캐 쉬 일 관성 
NUMA(CC-NUMA) 그리 고 캐 쉬 기 억 기 구성 방식 (COMA) 등이 다. 

이 것 들의 기 본차이 를 그림 5-12 에 제 시한다. 


기 ) NORMA 


니 NCC-NUMA 


디 CC-NUMA 


h) COMA 



그림 5-12. 4개 분산기 억 기 구성 방식 의 비 교 
(LM: 국부기 억 기， A,B: 기 억기 주소, RC: 원격캐 쉬 , 
El: E 등록기, R1: 일반목적등록기) 


NORMA 모형 은 이 미 1.3.4 절에서 고찰한바와 같이 성 긴결합형 (loosely-coupled) 클라스 
터 와 밀 집 결 합형 (tightly-coupled) MPPs 로 더 나눈다. 

클라스터들과 MPPs 는 10장과 11장에서 각각 자세히 고찰된다. NORMA 기계에서 마 
디 기 억 기 들은 개 별 적 인 주소공간을 가진 다. 

마디 는 원격기 억 기 에 직 접 접 근할수 없 다. 원격자료에 접 근하는 방식 은 통보문을 보 
내는것뿐이다. 그림 5-12 기)에서 마디 P 는 마디 Q 의 자료 A 를 가지기를 원한다. 이것 
은 마디 Q 가 보내 기 routine 을 실 행 하고 마디 모는 대 응하는 받기 routine 을 실 행 하는것 으 
로 완성된다. 






























마지막으로 A 의 값은 마디 모의 국부기억기에 있는 변수 B 에 복사된다. 다른 3가지 
구성 방식 들은 모두 단일주소공간에 모든 국부기 억기 들을 붙이 는 전용하드웨 어 를 가지 고 
있어 처리기가 기억기장소에 대한 접근을 가능하게 한다. 

실례 로 그림 5-12 에서 보여 주는바와 같이 원격자료 A 를 얻 기 위하여 적재명 령 을 
리용할수 있 다. 그러 나 그것 들의 접 수기 구는 차이난다. 

전형 적 인 NCC-NUMA 기 계 는 Cray T 3 E 이 다. 국부기 억 기 외 에 매 마디 는 E 등록기 라고 
부르는 마디준위등록기모임 을 가진다(그림 5-12 L ) . 명 령은 값 A 를 E 등록기 리에 적재 
한다. 그다음 값은 처 리기등록기 혹은 국부기 억기 에 전송될수 있다. 

다른 NCC-NUMA 체 계들은 원격값을 직접 처 리기등록기로 적재하는것을 허 용할수 
있다(즉 명령 “load Rl , A ” 에 의해). 캐쉬블로크 A 는 국부처리기캐쉬 혹은 국부기억기 
로 자동적으로 복사되지 않는다. 

CC-NUMA 체계에서 명령은 값 A 를 국부처리기등록기 R 1 (그림 5-12 미에 적재 
한다. 동시 에 캐 쉬 블로크 A 는 자동적 으로 원격캐쉬 ( RC ) 라고 하는 마디 준위 캐 쉬 에 복 
사된다. 그러 나 이 캐쉬블로크는 국부기 억기로 복사되지 않는다. 

어 떤 CC-NUMA 체 계 들은 원격캐쉬 들을 가지 지 않는다(실 례 로 SGI 0 rigin 2000). 그다 
음 캐쉬블로크 A 는 마디의 2차캐쉬 로 복사된다. 

COMA 기 계 에 서 모든 국부기 억 들은 캐 쉬 들로 구조화된 다 (COMA 캐 쉬 라고 부론다.). 
그러한 캐쉬는 2차캐쉬나 마디의 원격캐쉬보다 훨씬 큰 용량을 가진다. 명령은 값 A 를 
국부처 리 기등록기 야 로 적 재한다(그림 5-12). 동시 에 캐 쉬 블로크 A 는 국부기 억기(현재 
COMA 캐쉬 )에 자동적 으로 복사된 다. COMA 는 단지 다중국부기 억 기 들에 같은 캐쉬 블로 
크를 복제 하기 위한 하드웨 어 지 원을 제 공하는 구성 방식이 다. 

NCC-NUMA 와 CC - NUMA/COMA NCC—NUMA 체 계는 캐 쉬 일관성 을 위 한 하드웨 어 
지 원을 가지 지 않는다. CC-NUMA 와 COMA 구성 방식은 하드웨 어 에 의 한 캐 쉬 일관성 지 원 
을 제공한다. 이러한 리 유로 CC-NUMA 나 COMA 체계 보다 확대가능한 NCONUMA 체계 
를 제 작하는것 이 더 쉽 다. 

잘 알려 진 실례 로는 Cray T 3 D/T 犯체계를 들수 있는데 전체 적 으로 주소공간일관성 
을 유지 하는 쏘프트웨어 에 의 거한다. 이것은 다음과 같은 문제 를 야기시 킨다. 

구성 방식 을 자세 히 고찰하면 체 계 쏘프트웨어 와 그것 의 리용은 주소공간을 관리하는 
유연성을 가지고 성능을 최대화한다. 

그러 나 대 부분의 사용자들은 그러한 자세한것 을 보려 고 하지 않는다. 체 계쏘프트웨 
어 가 일 관성 주소공간을 유효하게 관리하도록 하는것 은 쉽지 않다. Cray T 犯는 절충안을 
선택한다. 성 능지향의 사용자들을 위해서 T 3 E 는 사용자가 자료공유를 최 량으로 관리하는 
낮은 준위 공유기억 기서고를 제 공한다. 사용자들의 편리성 을 위하여 T 3 E 는 높은 준위 프 
로그람작성 도구를 제 공한다. 그러 면 콤과일 러/실 행시 간체 계 는 기 억 기 일 관성 을 유지한다. 
공업적체계들은 SGI Origin 2000, HP/Convex Examplar X - Class , Sequent NUMA - Q 2000 그 
리고 자료일반다중봉사기 NUM 체계들을 포함한다. 

일부 상품화된 CC-NUMA 체계들을 8장에서 고찰한다. 

COMA 모형은 Kendell Square KSR -1/2 체계들 [116] 과 콤퓨터과학 Swedish 연구소에서 
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개발된 자료발산기계 ( DDM )[294] 에서 실행되였다. 

KSR 는 1 에 서 3준위 의 계 층으로 계 작된 다중처 리 기 이 다. KSR 기 계 에 서 기 억 기 구성 방 
식 을 ALLCAHE 라고 부르는데 모든 국부기 억 기 들이 캐 쉬 로 구성 된 다. 

CC-NUMA 와 COMA CC-NUMA 다중처 리 기 에 서 주기 억 기 는 모든 국부기 억 기 들로 
이 루 어 진 다. COMA 다중처 리 기 에 서 주기 억 기 는 모든 COMA 캐 쉬 들로 이 루 어 진 다. 
COMA 구성 방식 은 COMA 캐쉬들을 위한 태그들과 상태정보를 유지 하는 하드웨 어 지원 을 
요구한다. 같은 하드웨 어 는 COMA 개쉬관리 를 가상기 억기 관리 와 통합하여 야 한다(즉 
폐지 를 디스크로부터 COMA 캐쉬 들로 어 떻게 가져 오는가?). 이 모든 복잡성 은 COMA 
체계 가 UNMA 기계보다 실행되는데 더 많은 비용을 들게 한다. 

프로그람이 CC-NUMA 에 적재되 여 실행할 때 조작체 계 는 매 캐 쉬행 을 홈마디 에 
배정하는데 이것은 국부기 억기와 캐 쉬행 이 배 당되고 영 원히 상주하는 곳이 라는것을 의 
미 한다. 

마디 모가 캐 쉬 행 에 접 근할 때 모는 일 시 적 으로 캐 쉬 행 을 모의 국부캐 쉬 에 기 억 한다[그 
림 5-12 C }], 

WB 시 간에 서 캐 쉬 행 은 홈마디 의 국부기 억 기 에 뒤 로 기 억 된 다. 그러 한 후쓰기 통행 을 
완화하기 위하여 CC-NUMA 조작체 계 는 복제하거 나 페 지 가 가장 많이 참조되 는 마디 의 
국부기억기로 페지를 이동할수 있다. 

실례 8.2 를 통해서 자세히 보기로 하자. 

COMA 와 CC-NUMA 의 기본차이는 COMA 가 복제와 이동을 더 효과적으로 조종한다 
는것 이 다. 

첫 째 로， COMA 는 복제 와 이 동을 실 현 하기 위해 하드웨 어 를 리용한다. COMA 기 계 를 
리용하기 위하여 자료는 아무곳에나 배당될수 있다. 실행시간에 캐쉬행은 필요되는 곳에 
로 이동할수 있다. 

둘째 로, 복제 나 이 동의 립 도는 COMA 에 서 캐 쉬 행 이 며 CC-NUMA 에 서 의 페 지 립 도와 
비 교된 다. 

이 것 은 거 짓 공유 (false sharing ) 가 CONUMA 에 서 보다 COMA 에 서 그다지 엄 하지 않다 
는것 을 의 미한다. 

거 짓 공유는 두개 마디 가 갈은 캐 쉬행 혹은 같은 페 지 에 상주하는 두개 의 서 로 다른 
자료변수들에 접 근하는 상황을 가리킨다. 

총체적으로 CC-NUMA 와 COMA 구성 방식의 성능은 두개의 기본인자들에 달려 있 다. 
즉 작업모임의 크기와 통신 대 계산률 ( communication-tc 厂 computation , CCR ) 이 다. 

낮은 CCR 와 작은 작업 모임 에 대 하여 두 구성 방식 들은 성 능을 잘 수행한다. 왜 냐하 
면 대 부분의 기 억 기 참조들은 국부처 리 기 패 쉬 들에 의 해 만족되 기 때 문이 다. 

큰 작업 모임과 높은 CCR 에 대 하여 두 구성 방식틀은 자기의 성능을 불충분하게 수행 
한다. 이 것은 큰 작업 모임 이 두 구성 방식 에서 더 많은 비 적중을 일으키 고 높은 CCR 는 
주어 진 응용프로그람에서 더 큰 통신요구를 의미하기때문이다. 

높은 CCR 와 작은 작업모임 에 대 하여 CC-NUMA 기계는 COMA 가 더 높은 비적중벌 
칙 을 가지 기때 문에 COMA 기 계보다 더 잘 수행한다. 낮은 CCR 와 높은 작업 모임 에 대 하 
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그 응용으로 판매자가 제공하는 실행시간서고를 련결시킨다. 

판매자가 공급하는 콤파일러를 리용한 그것의 응용을 재콤파일러한다. 
그것의 응용에 서고함수호출을 삽입하고 재콤파일러와 재련결편집을 한다. 
그 응용재쓰기 하는 새 로운 프로그람작성 언어 를 리 용한다. 


사용자는 수학의 대상코드를 가지고 있지 않기때문에 과제 (1) 를 실행할수 없다. 그 
는 수학원천코드를 가지 고 있지 않기 때 문에 과제 (2)~(4)를 실 행할수 없 다. 원천을 가지 
고 있 다고 해 도 너 무 시 간을 소비하므로 과제 (3) 혹은 (4) 를 실 행 하기 를 원하지 않을수 
있 다. 

그는 바로 생소한 언어구조나 서 고함수를 리용하는 익숙치 못한 기계 를 계 획하는것 
이 아니라 자기 일을 원만히 진척시켜 나가기를 원한다. 

수학을 쏘프트웨어판매자에 의해 기계에 내장하면 우의 문제들은 나타나지 않을것 
이 다. 

이 실례 가 보다 넓 은 사용자의 찬성 을 얻 기 위 해서 는 체 계판매 자는 제3자의 응용을 
포함한 응용을 허용해 야 한다. 체계가 진짜 공유기억기 라면 실천적 인 검사기준은 순차2 


여 COMA 기 계 는 CC - NUMA 기 계 보다 더 잘 수행 된다. 왜 냐하면 COMA 캐 쉬 들이 CC _ 
NUMA 에 서 의 원격 캐 쉬보다 훨씬 큰 용량을 가지 기 때 문이 다. 이 결 과들은 Stenstrom 등의 
해석에 기초한다 [585]. 

쏘프트웨 어 실 행 형 DSM NORMA 와 NCC - NUMA 에 서 공유기 억 기 계 산을 가능하게 하 
기 위 하여 연구자들은 쏘프트웨 어 -일 관성 NUMA ( SC - NUMA ) 기 억 기 모형 (분산공유기 억 기 
( DSM ) 모형 으로도 알려 져 있 다.)을 제 기하였 다. 일부 DSM 기 계 들은 10장에 서 취 급한다. 

쏘프트웨 어실행형 DSM 은 단일주소공간，자료공유 그러 고 일관성규약을 주는 쏘프트 
웨 어확장에 주로 의 거한다. 

공유가상기 억기 ( SVM ) 방법 이 있는데 전통적 인 마디조작체 계 에서 가상기 억 기 관리 기구 
는 페지준위에서 자료공유를 제공하도록 변경된다. 

조작체 계 를 변경시키지 않는 방법 이 있다. 그것은 단일주소공간코드를 다중주소공간 
에 서 수행 하도록 변환하는 콤파일 러 와 서 고함수들을 리용한다. 응용코드들은 자료공유，동 
기 화 그리 고 원시일 관성 을 포함하도록 변경 되 여 야 한다. 

실 례 5.6. 공유기억 기 계 획 작성 에 서 절 충 

공유기억기를 언급할 때 콤퓨터판매 자들과 사용자들은 흔히 여 러 가지 일들을 생 각한 
다. 회사가 4개 마디와 4 GB 의 기억기를 가진 기계를 팔고 있다고 가정하자. 판매표본은 
체계가 연산체계와 응용에 의해 모든 기억기들이 리용될수 있는 공유기억기기구를 제공 
하는 득징 을 가지 고 있 다. 

사용자는 아주 많은 량의 수값계 산을 위한 수학적 쏘프트웨어 를 동작시 킬 수 있 는 3 GB 
기 억기를 요구하기때 문에 현지 에서 기 계를 살수 있다. 그러 나 그는 공유기억기 기구가 자 
기 에게 싫든 좋든 다음의 어느한 문제를 실행하라고 하는것을 보고 곧 실망할수 있다. 
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진코드가 모든 기억기를 리용하게끔 할 때 눈에 보인다. 오늘날의 상업체계에서 UMA 
와 CC - NUMA 체 계만이 이 공유수준에 도달할수 있다. 이 기 준에 맞는 효과적 인 SC - 
NUMA 를 어 떻게 설계하는가는 아직 연구중에 있다. 

분산기억기개괄 표 5-5 에서 5개 분산기억기구성방식을 종합고찰한다. 일관성은 


표 5-5 5 개 분산기억기구성방식의 특징 
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CC - NUMA 와 COMA 에 서 하드웨 어， SC - NUMA 에 서 OS 나 실 행 시 간서 고 그리 고 
NORMA 혹은 NCC - NUMA 에 서 사용자준위 쏘프트웨 어 에 의 해 시 행 된 다. 

일반적으로 NORMA 와 NCC - NUMA 체계들은 대상(변수)준위 에서 자료를 공유한다. 
마디는 어떤 변수이든지 필요하면 가진다. 

거짓공유는 없으며 공간국부성은 러용되지 않는다. 

COMA 와 CC - NUMA 체 계 들은 보통 페 지 준위 에 서 자료를 공유한다. SC - NUMA 체 계 들 
은 보통 폐지준위에서 자료를 공유한다. 마지막 3개 형태의 체계들은 어느 정도의 거짓 
공유를 가지 는 대 신에 공간국부성 을 리용할수 있 다. 

자료배 당, 복제 그리 고 이 동은 자료대 상립도에 서 NUMA 와 NCC - NUMA 의 사용자쏘 
프트웨어 에 의해 수행 된다. 복제 와 이 동은 페지 준위 에서 는 CC - NUMA 의 조작체 계 에 의 
해서，캐쉬행준위에서는 COM 의 하드웨어에 의해서 그리고 대상 혹은 페지준위에서는 
SC - NUMA 의 조작체 계 혹은 실행 시 간서고에 의해서 수행된다. 

5. 4. 2. 등록부에 기초한 일관성규약 

Snoopy 규약은 기 억 기 모선에 서 방송능력 에 기 초한다. 다른 캐쉬일관성 규약들은 방송 
을 리용하지 않을수 있 다. 

등록부에 기 초한 규약들은 Snoopy 모선에서 방송을 리용하기 위해 설계 되 지 않았다. 

이 절에서는 등록부에 기초한 규약의 기본개 념들을 소개한다. 등록부에 기초한 실례 
를 이 절에서 보기로 한다. 

캐쉬등록부 등록부방법은 공유자료의 모든 캐쉬행들의 장소와 상태들을 기록하는 
등록부를 리용하는것이다. 

이 캐 쉬장소들의 목록을 캐 쉬등록 부라고 부론다. 
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자료의 매 캐쉬행에 대한 등록부입력자료는 같은 기준에서 모든 원격복사들의 장소 
들을 지정 하는 포인터들을 포함한다. 매 등록부입력 자료는 유일한 캐쉬 가 자료의 련관기 
준에 쓰기를 허용하겠는가를 지정하는 오물비트를 포함한다. 

Tang [606] 은 처 음으로 캐쉬 일관성조종을 위 한 등록부도식을 제 기 하였다. 기 본방법 은 
모든 캐쉬조건들을 기록하는 중심등록부를 리용하는것 인데 종래정 보와 모든 캐쉬행상태 
들을 포함한다. 

이 중심등록부는 중심화된 공유기억기 를 가진 소규모 SMP 에서 캐쉬일관성조종에만 
적 합하다. 

기 본난점 은 중심등록부 그자체 를 실행하는데 많은 기 억기공간이 요구되 고 갱 신시 간 
을 줄이 기 위해 련관적 으로 탐색 되 여 야 한다는것 이 다. 

이 도식은 큰-캐쉬 SMP , NUMA 혹은 분산기 억기 가동환경 에서의 리용에 는 적 합치 
않다. 


분산등록부들 분산등록부도식은 Censier 와 Feautrier [135] 에 의해 제 기되 였다. 

매 기 억 기 모줄은 상태 와 모든 캐 쉬 행 들의 존재 정 보를 기 록하는 개 별 등록부를 보존 
한다. 등록부입력자료들은 갈은 캐쉬행복사를 가진 원격캐쉬장소를 가리키는 존재정보 
와 캐쉬행의 상태들을 포함한다. 다음실례는 분산캐쉬등록부들의 기본사상을 명백히 
해준다. 


실례 5.7. 캐쉬일관성조종을 위한 분산등록부들 

그림 5-13 에서 공유기억기는 다중기 억기모둘로 이루어 진다. 



그림 5-13. 등록부에 기초한 캐 쉬일관성 도식 

매 기억기모둘 M ,_, i = l ，2, …， m 은 캐 쉬 등록부 이를 보존한다. 캐 쉬들은 처리기 
기에 대하여 (가로 표시한다. 실례는 캐쉬 (가과 C 2 사이의 같은 캐쉬행의 공유를 보 
여 준다. 호상접속망은 모선에 조금도 제한되지 않는다. 여러 단계 혹은 크로스바 절환 
기 혹은 점대점체계령역망 ( SAN ) 혹은 국부령역망 ( LAN ) 이 리용될것이다. 이 절환들과 
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망들은 6장에서 취급된다. 실선(화살선)들은 캐쉬일관성조종에 대한 신호경로를 가리 
키 고 굵은 화살선(속이 비 여 있는)은 자료경 로를 가리킨다. 

기 억기/캐쉬갱 신은 다음과 같이 동작한다. 캐쉬 다에서 읽기비 적중(그림 5-13 에서 얇 
은 선)은 Q 에 서 clean 봉사의 존재 를 가리 키 는 등록부 미로 보낸 응답에 귀 착된 다. 

기억기조종기는 디로 응답을 다시 넘겨 준다. 이 캐쉬는 그 clean 복사를 Mi 과 0 2 로 
되돌려 보낸다. 디에서 쓰기-적중 (굵은 선)인 경우 지령을 기억기조종기에 보내며 등 
록부 D ! 에 서 존재비 트로 표시 된 모든 캐쉬 들에 무효를 보낸 다. 

캐쉬등록부구조 . 각이한 형 태의 등록부규약들은 3가지 로 분류할수 있다. 

즉 fuU - map 등록부， limited 등록부, chained 등록부 

• fuU-map 캐 쉬 등록부는 대역 기지에서 공유된 모든 캐쉬행들의 정보를 포함한다. 
매 등록부입력자료는 n 개의 포인터를 포함하는데 N 은 처 리기수이 다. 포인터들 
은 비 트벡 토르에 의해 식 별된다. Full 등록부는 매 마디 에 서 반복하면서 많은 기 
억기 공간을 차지한다. 소규모다중처 리 기 혹은 다중콤퓨터 는 fol 卜 map 등록부방법 
을 리용할수 있 다. 

• limited 캐 쉬 등록부는 체 계 크기 에 관계 없 이 등록부입 구단마다 훨씬 감소되 고 고정 
된 수의 포인터들을 러 용한다. 이 것은 캐 쉬등록부들에서 의 기 억 기 요구를 감소할 
것 이며 따라서 기 억기공유가 낮지 만 실행하는데서 더 경제적 이 다. 그러 나 이것 
은 기 억기공유화정도가 지 나치면 캐쉬/기 억기갱 신처 리를 느리게 할수 있다. 

• Chained 캐 쉬 등록부는 등록부정 보를 작은 국부등록부들에 분배 함으로써 full-map 
도식과 경쟁한다. 기억기공유의 대역적표상을 얻기 위하여서는 련결된 캐쉬등록 
부목록을 통하여 탐색하여 야 한다. IEEE SCI 표준은 chained 등록부들의 구조를 
규정 하였 다. 


5. 4. 3. Stanf 아 d Dash 다중처리기 


이 것 은 Stanford 대 학에 서 제 작한 실 험 용 CC-NUMA 다중처 리 기 체 계 이 다. 이 름 Dash 는 
공유기 억기를 위 한 등록부구성 방식 (directory architecture for shared memory) 의 략자이 다. 

그 의 의 는 분산일 관성 캐 쉬 와 분산계 층기 억 기 를 리 용하여 단일 주소공간을 가진 확대 
가능한 병 렬 콤퓨터 를 제 작하는것 이 가능하다는것 이 다. 

Dash 개 발자들은 이 방법 을 CC-NUMA 구성 방식 제 작에 도입 하여 통보문넘 기 기 다중콤 
퓨터의 확대가능성을 보존하게 하였다. 

Dash Dash 구성 방식 의 하드웨 어조직 을 그림 5_14 가 )에 제 시한다. 그것 은 16 개 의 
SGISMP 마디들에 64 개까지의 극소형처 리기들을 통합한것 이며 매개는 4MIPS 
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R 3000/ R 3010 처 리 기 이 다. 마디 구성 방식 은 Silicon Graphics , 4 D /340 Power Station 과 조금 차 
이 난다. 

두개 전용보조판 (daughter board ) 이 매 Power Station B l •디 에 꽂기 위 해 제 작되 였는데 
이 판들은 망대면회 로와 같은 Snoopy 모선에 붙은 4개의 모든 처 리 기들에 의해 공유된 
케 쉬 등록부를 가지 고 있 다. 16개 SGI 마디 들가운데 서 호상접 속망은 wormholeTmited 이 고 
2차원 4 x 4 그물 ( mesh ) 망의 쌍이 다. Mesh 는 flat wire strip 와 wormhole router 로 계 작되 였 
다. 

그물망에 서 통로폭은 50 ns 의 실패 에 의 한 되 돌이 ( fall - through ) 시 간과 35 ns 의 주기 시 간 
을 가진 1的이다. 

하나의 요청그물망은 원격 기 억 기를 요청 하는데 쓰고 다른것은 응답그물망이다. 그물망 
교차에 서 작은 4각형 들은 Charier Seitz 에 의 해 개 발된 wormhole router 들이 다. 

전용하드웨어 비록 원형이 매 4 D /340 마디의 기억기주소공간에 대한 제한으로 16 
마디 콜라스터 (4 x 4 mesh ) 로 제 한되 지 만 대 수설 계 자들은 대 수방법 을 위 한 확대 가능성 을 
주장하였 다. 리 론적 으로 체 계 는 수백 개 의 처 리 기 들을 지 원 하기 위 해 확대 가능하여 야 
한다. Dash 에서 4 D /340 을 리 용하기 위 해 현재 체계 판을 좀 변경 시 켜 등록부기 억기와 내 
부마디통보문넘 기기를 지 원하는 새 로운 판을 설계하였다. 

현재 CPU 판에 대한 기본변경은 요청이 원격마디에서의 봉사를 요구할 때 쓰이는 모 
선재 검 사신호를 부가한것이 였 다. 

중심모선조정 기 는 등록부에 서 마스크를 접 수하도록 변경되 였 다. 마스크는 원격 요청 이 
봉사될 때 가지 처 리 기의 재검 사를 지 체시 킨다. 이 것은 원격봉사의 요청 을 위한 분할처 러 
모선을 효과적으로 창조한다. 

새 로운 등록부조종기판은 등록부기억기，내 부클라스터 일관성상태 기계 들과 완충기 그 
리 고 대 역 적호상접 속망의 국부구역 을 포함한다. 

등록부론리 는 내 부클라스터호상작용의 밖으로 나가는 부분과 안으로 들어 오는 부분 
을 위 해 쓰인 론리 선을 따라 두개 의 론리 판사이에 서 분리 된다. 

그물망들은 확대가능한 국부기 억기와 전역기 억기의 대역너비를 지원하며 국부성을 
보상한다. 

일 관성캐쉬 들을 가진 단일주소공간은 콤파일 러 들과 프로그람작성 자들이 응용성 능조 
절을 쉽게 허용하고 시공간국부성을 쉽게 개발하게 한다. 

성능개 선에 기 여하는 다른 인자들로는 원격기 억기접 근지 연시 간을 은폐시키는 완화형 
기 억기 일치성방식과 자료미 리꺼 내기기구를 들수 있다. 

Dash 계 층기 억 기 Dash 에 서 기 억 기 공유는 캐 쉬 행 준위 에 서 진행 된다. Dash 분산체 계 등 
록부를 쓴 쓰기-무효일관성규약을 가지고 있다. 

기 억 기 에서 캐쉬행 혹은 국부캐쉬 에서 캐 쉬 복사는 다음의 3상태중의 어 느 하나로 될 
수 있다. 
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국부를라스려준위 

국 / mm 서 


등록부 


ᄂ 원격률라스터에서 처리기캐쉬 j 

u ) 분산기억 기계충 

그림 5-14. Stanford Dash CC-NUMA 다중처 러 기 개 발계 획 


• 비캐쉬: 어떤 마디클라스터에서 캐쉬되지 않는다. 

• 공유 : 하나 혹은 그이상의 마디클라스터들의 캐쉬에서 변경되지 않는 상태 

• 오물 ( dirty ) : 어 떤 마디클라스터의 단일캐쉬 에서 변경된다. 등록부는 매 캐쉬행 
에 대한 요약정보를 보관하고 캐쉬하는 상태와 마디클라스터들을 지정한다. 

Dash 기 억기 체 계는 그림 5-14 니에서 보여 주는바와 같이 론리적 으로 4개의 준위 계 
층으로 나눈다. 
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첫번째 준위는 매 개별적인 캐쉬가 처리기속도와 조화되고 국부모선에서 Snooping 을 
지원하도록 설계되였다. 처리기가 캐쉬에 접근하는데는 한박자만 걸린다. 

처 리 기 캐쉬 에 의해 봉사될수 있는 요청 은 국부마디 클라스터안에 있는 캐쉬 들로 보 
낸다. 

Dash 원형 은 국부마디 에 서 패 쉬 들에 접 근하는데 30처 리 기박자를 허 용한다. 이 준위 는 
요청하는 처 리 기의 마디령 역안에서 다른 모든 처 리 기들의 캐쉬들을 포함한다. 그렇지 않 
으면 요청은 홈클라스터준위로 보낸다. 

홈준위는 주어 진 기억기주소에 대한 등록부와 물리적기억기를 포함하는 마디클라스 
터 로 이 루어 진다. 그것 은 홈준위 에 서 등록부에 접 근하는데 100처 리 기박자가 걸린 다. 많 
은 기억기접근에 대하여(실례로 전용자료참조) 국부클라스터와 홈클라스터는 갈으며 계 
중은 3개 준위로 된 다. 

일반적으로 요청은 그물망에서 홈클라스터로 움직 인다. 홈마디클라스터는 보통 요청 
을 즉시에 만족시킬수 있지만 등록부입력자료가 오물상태에 있거나 요청처리기가 과도한 
접근을 요청할 때 에 공유상태 에 있으면 네번째 준위 가 접근된다. 캐쉬행을 위한 원격콜라 
스터는 캐쉬행복사를 가짐으로써 등록부에 의해 표식된 마디클라스터들로 이루어 진다. 
그물망이 련결된 Dash 견본설계의 원격마디클라스터 에서 처 리기캐쉬 에 접근하는데 135처 
리 기박자가 걸린 다. 

5. 4. 4. Dash 에서 등록부에 기초한 규약 

등록부기억기는 기억기요청에 대한 조사를 통하여 처리기캐쉬들을 해제한다. 홈마디 
에는 매 캐쉬행프렘을 위한 등록부입력자료가 있다. 매 입구는 처리기캐쉬당 한개의 존 
재 비트를 포함한다. 추가적 으로 상태 비트는 기준이 다중캐 쉬들에서 비캐쉬되거 나 공유되 
며 한개 패쉬에 의해 배타적으로 취하게 되는것을 가리킨다. 

상태와 존재비트를 리용하면 기준이 씌여 질 때 어느 캐쉬들이 무효가 되여야 하는 
가를 기억기는 알수 있다. 마찬가지로 등록부는 어느 기억기의 캐쉬행복사가 지금까지의 
것인가 혹은 어느 캐쉬가 가장 최근의것을 유지하고 있는가를 가리킨다. 

기억기와 등록부가 독립단으로 갈라 지고 확대가능한 호상접속에 의해 처리기에 련결 
된다면 기억기체계는 확대가능한 기억기대 역너비를 제공할수 있다. 

등록부기억기를 러용함으로써 장소에 쓰는 마디는 점대점부호나 갱신된 통보문들을 그 
기준에 캐쉬한 처 러 기들에 보낼수 있다. 이것은 snoopy 규약에서 요구되 는 무효방송과 대 조 
적 이다. Dash 의 확대가능성은 방송을 피하는 이 능력에 달려 있다. 

등록부에 기초한 규약의 다른 중요한 의의는 어떤 특정한 호상작용망기술에 의거 
하지 않는다는것 이 다. 결과 그물망 혹은 하이퍼 립 방체 와 같은 통보문넘 기 기 다중를퓨터 
를위해 개발된 낮은 지연시간을 가진 확대가능한 망들을 쉽게 러용할수 있다. 

실례 5.8. Dash 다중처 리 기 에서 캐쉬등록부규약 

그림 5-15 자)에 오물상태에 있는 등록부입력자료를 가진 원격기억기에로의 읽기요 
청 흐름을 제 시한다. 읽 기 요청 은 전용오물마디 에 대 하여 진행한다. 전용마디 는 두개 의 응 
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답통보문을 읽기로 보낸다. 자료를 포함하는 통보문은 직접 요청클라스터로 보내며 공유 
후쓰기요청은 홈클라스터로 보낸다. 



그림 5-15. Dash 에서 등록부에 기초한 캐쉬일관성규약 


공유후쓰기요청은 캐쉬행을 기억기의 뒤에 쓰고 등록부를 갱신한다. 

이 규약은 오물마디 가 요청마디클라스터에 직접 응답하도록 함으로써 지 연시 간을 감 
소시킨 다. 그밖에 이 앞방향전 략은 등록부조종기 가 모든 요청 들의 상태 를 유지해 야 하는 
복잡성 이 없 이 많은 요청 들(즉 다중스레 드화된)을 동시 에 처 리하게 한다. 

직 렬 화는 단일내 부클라스터모선호상작용의 시 간으로 감소된 다. 

내 부클라스터통보문들을 보내 는 동안 보관된 자원만이 출발마디 의 원격접 근캐쉬 에 
있는 단일입 력 자료이 다. 

그림 5-15 L ) 에 서 원격봉사를 요구하는 쓰기 동작에 대 한 대 응하는 순서 를 보여 준 
다. 쓰기 무효규약은 쓰기 를 완료하기 전에 캐쉬행의 배 타적 인 소유권을 얻는 처 리 기 (사실 
상 쓰기완충기 )를 요구한다. 

따라서 쓰기 가 비 캐 쉬 화된 기 준으로 되 거 나 공유상태 에 서 만 캐 쉬 된 다면 처 리 기 는 국 
부모선 에 서 읽 기 -배 타적 인 요청 을 발행한다. 

이 경우 다른 캐쉬는 국부마디클라스터에서 기준입구오물을 가지지 않는다. 그래서 
RdEx 요청(통보문 1) 은 홈클라스터로 보낸다. 사전에 원격접근캐쉬입력자료는 국부클라스 
터에 배당된다. 

홈클라스터 에 서 pseudo - CPU 는 읽 기-배 타적 요청 을 모선에 발행한다. 등록부는 기 준이 
공유상태 에 있다는것 을 가리킨다. 이 것은 등록부조종기 가 RdEx 응답(통보문 2 a ) 을 국부클 
라스터로, 무효요청 ( Inv - Req , 통보문 2 b ) 을 공유클라스터로 보내기때문이 다. 

홈마디 클라스터 는 캐 쉬행 을 가지 고 있 다. 그래 서 등록부를 오물상태 로 즉시 에 갱 신 
할수 있으며 따라서 국부마디는 패쉬행의 배 타적복사를 가지 고 있다. 
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RdEx 응답통보문은 응답조종기 에 의해 국부마디 에 서 받게 되 며 그다음 읽 기 -배 타적 
요청 을 만족시 킬 수 있 다. 

해제점에서 일치성을 담보하기 위하여 원격접근캐쉬입력자료는 무효지식의 수(초기 
응답통보문에서 보낸 무효 총수와 등가이다.) ( InVAcK ， 통보문 3 )를 받을 때에만 배정되지 
않는다. 

등록부에 기 초한 규약의 중요한 특징 은 그것 의 앞방향처 리 방법이 다. 

마디가 주어 진 요청에 대한 등록부에 응답할수 없으면 요청의 응답가능성을 응답할 
수 있는 마디콜라스터로 전진시킨다. 이 기술은 또한 내부마디통보문이 전진하는 동안은 
차단되지 않기때문에 요청의 직결화를 최소화하게 한다. 

앞방향처 리 방법은 등록부조종기가 다중요청들을 앞의 요청들에 대 한 추가적 인 상태 
를 보존함이 없 이 병 행 으로 처 리하도록 한다. 

5. 5. 지연시간허용기술 

미 래의 확대 가능한 체계는 대체 로 분산공유기억기구성 방식을 리 용할것 이 다. 원격기 
억 기 에 대 한 접 근은 긴 지 연시 간을 동반한다. 더 우기 처 리 기 속도는 기 억 기와 호상접 속망 
의 속도증가보다 훨씬 빨리 증가하고 있다. 

확대 가능한 다중처 리 기 나 혹은 대 규모다중콤퓨터 클라스터 들은 지 연시 간감소, 지 연 
시 간회 피 그리고 지 연시 간은페기구들의 리용에 의거하여 야 한다. 

4개의 지연시간은패기구들이 미래의 체계들의 확대가능성과 프로그람화가능성을 높 
이 기 위하여 연구고찰되 고 있 다. 

5. 5. 1 . 지연시간회피，감소，은페 

기억기지연시간문제를 풀기 위한 3가지 방법틀은 지난 시기에 제기되였다. 간단한 
실례 를 들어 이 방법 들을 소개한다. 

지 연시 간회 피 이 기 술은 자료/프로그람국부성 을 얻 기 위하여 사용자응용을 구성 방식， 
콤파일 러 혹은 응용준위 에 서 조직하려 고 시 도한다. 

그 목적 은 원격자료접 근 혹은 프로그람접 근에 서 긴 지 연시 간을 피 하는것 이 다. 이것 
은 응용프로그람들이 시 간국부성 혹은 공간국부성 을 공개할 때 만 가능하다. 시 공간국부 
성 을 높이 기 위한 많은 기 술이 개 발되 였 다. 

이 기술들을 다음의 3가지로 분류할수 있다. 

• 구성방식지원 구성방식지 원은 여 러 가지 형태의 캐쉬일관성규약，기 억기 일치성모 
형，고속통보문넘기기 그리고 확대가능한 체계에서 제작될수 있는 동기화하드 
웨어를 포함한다. 

• 사용자지원 프로그람작성 자(사용자)는 국부성 을 높이 기 위하여 응용프로그람을 
명 확히 쓸수 있 다. 고성능 Fortran ( HPF ) 과 같은 어떤 언어들은 유연성을 가지 고 
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사용자들이 국부성을 조사하는것을 도와 준다. 

방법은 국부접근들을 보장하기 위하여 자료모임을 얼마나 잘 배당하는가를 콤과 
일러에게 명령하는것이다. 이것을 실례 5.9 에서 보여 준다. 자세한것은 14.3.2 에서 토 
론한다. 


쏘프트웨어지원 콤파일러와 갈은 체계쏘프트웨어는 국부성을 높이기 위한 일정한 
변환을 수행할수 있다. 실례 5.10 에서 고찰된다. 자세 한것은 12.3.5 에서 토론한다. 

실례 5.9. 분산자료구조의 국부성 

복소수들의 배렬은 과학계산과 신호처리응용에서 자주 쓰인다. 두가지 일반적인 방 
법은 다음과 같다. 

/***** Method ( l ) Array of Structure *******/ 
typedef struct {double real , image ;} CUMPLEX ; 

COMPLEX data [ Nl ][ N 2][ N 3]; 

/***** Method (2) Separate Arrays ********/ 

double data _ real [ Nl ][ N 2][ N 3], data _ image [ Nl ][ N 2][ N 3]; 

이 두 방법들은 같은 알고러듬문제를 푸는데 쓰일 때 성능차이를 잘 보여 준다. 

방법 1은 대부분의 초고속계산응용에 쓴다. 왜냐하면 방법 1은 더 좋은 국부성을 가 
지기때문이며 따라서 보다 작은 캐쉬비적중률에 귀착된다. 

실례 5.10. 고리변환 (loop ) 에 의한 자료국부성 에서의 실행 

행 렬 곱하기 C = AxB 를 수행하는 전통적 인 알고리 듬은 아래 와 같다. 



for ( k =0; k < N ; k ++) 
c [ i ][ j ]+= a [ i ][ k]*b 四 [ j ] ; 

고리 교환 ( interchange ) 이 라고 부르는 변환은 더 큰 자료국부성 을 개 발하는 콤파일 러 에 
의해 수행 될 수 있 다. 

아래에서 보여 주는바와 같이 k 고리와 j 고리는 서로 교환된다. 

이 변환은 계산된 결과를 변화시 키지는 않지만 크기차수이상으로 성능을 향상시 킨다. 
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c [ i ][ j ]= a [ i ][ k ]* b [ k ] tj ] ; 


지연시간감소 Burton Smith [569] 가 강조한바와 같이 자료국부성은 제한될수 있고 발 
견하기 어려우며 동적으로 변할수 있다. 

대부분의 정렬 ( sorting ) 알고리듬들은 모두 3가지 특징을 가지고 있 다. 

국부성 이 지 연시 간을 완전히 피할수 없을 때 원격참조에 의해 생 기는 긴 지 연시 간을 
감소하는 기술이 필요하다. 

확대 가능한 콤퓨터 의 기 본설 계 목표는 통신부분체 계 를 효과적 으로 만드는것 이 다. 그 
러자면 다음의 성 능이 필 요하다. 

• 효과적인 호상접속하드웨어 (6 장에서 취급한다.) 

• 효과적인 망대면부 (6 장에서 취급한다.) 

• 고속통신쏘프트웨어 (7 장과 14장에서 취급한다.) 

지 연시 간은페 이 기 술은 계 산에 서 통신지 연시 간을 은페 시 키 는것 을 가리 킨다. 즉 어 떤 
중복기 술들을 통하여 지 연시 간은폐 를 다음의 4가지 방법 으로 완성할수 있 다. 

• 미러꺼내기기술 이 기술은 명령이나 자료가 실지로 참조되기전에 그것을 처리 
기가까이 로 날라 간다. 다른 말로 말하면 자료미 리꺼 내 기는 읽 기지 연시 간을 은 
페시킨다. 

• 분산일관성캐쉬 하드웨 어에 의해 지 원된 분산일관성캐쉬들은 캐쉬비적중들을 
감소하거 나 clean 복사를 회 복시 키 는 시 간을 짧게 한다. 

• 완화형기억 기 일 치성 모형 기 억 기참조동작의 완충화와 관흐름화를 리용한다. 완 

화형 기 억 기 일 치 성 을 리 용하는것 은 쓰기 지 연시 간을 은페 시 킨 다는것 을 의 미 한다. 

• 다중문맥처리기 처리기가 긴 지연시간동작을 만났을 때 한 문맥에서 다른 문맥 
에로 절환하도록 한다. 

5.6 에 서 하드웨 어 지 원에 의한 다중스레 드화를 고찰한다. 

가장 발전된 회피 나 감소기술일지라도 모든 응용프로그람을 위한 대규모병 렬체계에 
서 지 연시 간을 제 거할수 없 다. 

지 연시 간은패 기 술들은 긴 지 연시 간이 존재 하는 속에 서 고성 능을 얻 는메 목적 을 두고 
있다. 지 연시간을 허 용하는 기본방법 은 처 리기 가 자료접근이 진행중에 있는 동안 쓸모 
있는 계산을 계속 해나가도록 하는것이다. 즉 중복계산과 통신. 

지 연은페기 술의 3분의 1은 이 절 에서 제 시한다. 다중스레 드화방법 은 5.6 절 에 서 취 급 
한다. 
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5. 5. 2. 분산일관성캐쉬 

일관성 을 가진 분산캐 쉬들을 러 용하는것은 국부캐 쉬 비 적중을 줄일뿐아니 라 캐 쉬 행준 
위에서 DSM 을 얻는 효과적인 방도를 제공한다. 이전 절들에서 본바와 같이 하드웨어와 
쏘프트웨 어실행 은 분산일관성패쉬 들을 지 원할수 있다. 

아래에서는 분산일관성캐쉬들을 가질 때 성능증가에서의 효과성을 보여 주는 몇가지 
성능평가기준결과들을 보기로 한다. 

일관성 캐쉬 개 발파 제 품들 MIT Alewife , KSR -1 파 Stanford Dash 는 모두 실행 형 등록부 
에 기 초한 일 관성규약들을 가지 고 있 다. 분산캐쉬 는 동기 화-적 재문제 가 아니 라 원격 -적 
재문제의 풀이를 제공한다. 

다중스레 드화는 원격적 재 와 동기 화적재문제 의 풀이 를 제 공한다. 그러 나 두 방법 들을 
두가지 형 태의 원격-접근문제를 풀기 위해 결합할수 있다. 

캐 쉬 일 관성 문제 는 Snoopy 일 관성 규약을 리 용하여 모선 에 기 초한 작은 규모의 다중처 
리 기들에 대 해 쉽게 풀수 있는데 점대점 혹은 절환형호상접속을 리용하는 대 규모다중처 
리 기 들에 대 해 서는 문제 가 훨씬 복잡하다. 결과 현재의 대 규모다중처 리 기 들은 캐쉬 들에 
대 한 하드웨 어지원을 제공하지 않는다(실례로 BBN Butterfly 혹은 Cray T 3 D/T 犯). 

다른것 들은 쏘프트웨어 에 의해 일 관성 을 유지 하는 캐쉬 들을 제 공한다(실 례 로 IBM 
RP 3). 

4개의 최근 NUMA 다중처리기체계들을 보면 SGI 0 rigin 2000, HP/Convex Exampar X 
Class , Sequent NUMA - Q 2000 과 Data General NUMA 봉사기 들을 들수 있 는데 모두 CC _ 
NUMA 개 발경 험들로부터 연구제작되 였다. 그것틀은 모두 등록부에 기초한 캐쉬일관성규 
약으로 실행된다. 

성 능평 가기 준조건들 여 기 서 는 Dash 하드웨 어 일관성 재 쉬 들에 서 허 용된바와 같이 전용 
자료와 공유자료가 캐쉬 가능할 때 리 득을 평 가하며 전용자료만이 캐 쉬 가능한 경 우와 비 
교한다. 그림 5-16 에서 는 3개 응용프로그람의 매 경우에 대 하여 공유자료의 캐쉬를 가질 
때와 가지지 않을 때 정규실행시 간분석을 보여 준다. 

전용자료는 두가지 형태의 캐쉬들에 캐쉬된다. 

매 성능평 가기준에 대한 왼쪽 막대기는 캐쉬 가 없는 경우에 대응하고 오른쪽 막대기는 
공유 읽기/쓰기자료의 캐쉬효과를 보여 준다. 3개의 평가기준프로그람들을 보면 

MP 3 D : 이 것은 항공술연구에서 쓰인 립자에 기초한 3차원모의기 이 다. 

LU : 이것은 대규모선형방정식계를 푸는 분해프로그람이다. 

PTHOR : 이것은 수자론리모의프로그람이다. 

이 성능평 가기준프로그람들은 Stanford Dash 다중처 리기 에서 검사되 였다. 여기서는 매 
형래의 지연시간은페 기구에 대한 성능결과들이 분석된다. 매 응용프로그람의 실행시간은 
공유자료가 패쉬되지 않는 경우에 대해 정규화된다. 

매 막대기의 바닥부분의 수자는 동작시간 혹은 처 리기 에 의해 실행된 주기들로 표현 
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하고 그우에 있는 부분의 수자는 처리가 읽기를 완성하는데 기다리는 시간을 표현하며 
또 그우에 있는 부분의 수자는 처리기가 쓰기를 완성하는데 기다리는 시간을 표현한다. 
꼭대기부분 수자는 동기화를 반영하는것으로써 처리기가 차단 ( lock ) 과 장벽으로 인하여 
멎는 시간을 표현한다. 

캐쉬의 러득 기대한바와 같이 공유읽기/쓰기자료의 캐쉬는 3개의 Stanford 성능평가기준 
프로그람에서 2.2~2.7배의 실질적인 성능리득을 보여 주었다. 

가장 큰 리득은 읽 기비적중으로 소비된 주기수감소에서부터 온다. 리득의 크기는 각 
이 한 쓰기적 중률로 인하여 3개 프로그람에 서 변하지 만 쓰기비 적중으로 소비 된 주기 들은 
역시 감소된다. 

MP 3 D , LU 그리 고 PTHOR 에 의 해 도달캐 쉬 적 중률은 공유읽 기 참조에 대 하여 각각 
80%, 66%, 77%이 고 공유쓰기참조에 대 해서 는 각각 75%, 97%, 47%이 다. 

이 적중률은 보통 단일처 리기적중률보다 실질적으로 낮다. 

적중률이 낮은것은 여 러가지 인자에 기 인된다. 

공학응용을 위한 자료모임 의 크기 는 크고 병 렬 성 은 이 응용프로그람들에 서 공간국부 
성을 감소시키며 처 리기들사이의 통신은 무효비적중에 귀 착된다. 아직 하드웨 어캐쉬일관 
성성능은 성능을 실질적으로 높이는 효과적인 기술이다. 이 중가는 콤퓨터조작자나 프로 
그람작성자의 도움이 없이 이루어 진다. 
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5. 5. 3. 자료미리꺼내기방법 

자료미 리꺼 내기는 관련 있는 자료들이 참조되 기전에 처 리기로 접근시 키는 프로그람에서 
예상되는 비적중에 대한 지식을 리용하여 처리기근방으로 이동한다. 

미리꺼내기는 하드웨어 혹은 쏘프트웨어의 두가지에 의해 조종될수 있다. 

미 리꺼 내기형 태들 미 리꺼 내기는 속박형과 비속박형 으로 분류할수 있다. 속박형미 리 
꺼내기에 대해서 보면 후에 참조하는 값이 미리꺼내기가 완성될 때 작업등록기들에 직접 
속박되거나 적재된다. 

이것은 미리꺼내기와 실지참조들사이동안에 다른 처리기가 좋은 위치로 변경시키면 
값이 무효로 되므로 속박형미러꺼내기가 발행될수 있을 때에 제한을 준다. 속박형미러 
꺼내기는 성능저하를 가져 올수 있다. 반대로 비속박형미리꺼내기는 자료를 캐쉬로만 가 
져 가며 캐 쉬 일 관성 규약을 지 키면서 처 리 기 가 실지 값을 읽을 때 까지 일치 성을 유지 한다. 
하드웨어조종에 의한 미리꺼내기는 긴 캐쉬행들과 명령예측과 같은 도식들을 포함한다. 

긴 캐쉬행들의 효률성은 다중처리기응용들에서 감소된 공간국부성에 의해 제한되며 
명 령 예측은 분기들과 유한예측완충기 크기 에 의 해 제 한된다. 

쏘 프트웨 어조종에 의한 미 리꺼 내 기 에서는 명백 한 미 리꺼내 기명 령들이 사용자코드에 
서 발행된다. 쏘 프트웨 어조종은 미리꺼내기가 선택적으로 진행되게 하고(따라서 대역너 
비 요구를 감소시 킨다.) 미 리꺼 내 기 발행 과 실지 참조사이 간격 을 가능한껏 확장하는데 이것 
은 지연시간들이 커질 때 아주 중요하다. 

쏘프트웨 어 조종의 결 점 들을 보면 정 교한 쏘프트웨 어 개입에 대한 요구는 물론 미러꺼 
내기를 생성 하는데 요구되는 외부명 령부가처 리를 포함할수 있다. 여기서는 비 속박쏘프트 
웨어조종에 의한 미리꺼내기에 중심을 둔다. 

미리꺼내기의 리익 그 리익은 몇가지 원인에서 볼수 있다. 가장 명백한 리익은 기 
준이 참조되는 시간까지 캐쉬에 있는 코드에서 미리꺼내기가 충분히 빨러 발행될 때 생 
긴다. 그러나 미리꺼내기는 이것이 가능하지 않을 때에도(즉 자료구조주소가 그것이 
참조되기전까지 즉시에 결정될수 없을 때) 성능을 개선할수 있다. 

다중미리꺼내기가 자료구조를 꺼내기 위해 뒤에서 뒤로 발행된다면 먼저 미리 꺼낸 참 
조들을 제외한 모든 지연시간은 기억기접근의 관흐름으로 인해 은페될수 있다. 

미리꺼내기는 소유권에 기초한 캐쉬일관성규약을 리용하는 다중처리기들에서 또 다 
른 리득을 준다. 

캐쉬행이 변경되면 소유권을 가지고 그것을 직접 미리꺼내기하는것이 소유권을 얻기 
위한 쓰기지연시간들과 안전한 망통행을 뚜렷하게 감소시킬수 있다. 망통행은 소유권을 
가진 미러꺼내기가 읽기-공유복사를 먼저꺼내기하는것을 피하기때문에 읽기-변경-쓰기명 
령들에 의해 감소된다. 

Stanford 성 능평 가기 준평 가들 Stanford 연구자들 ( Gupta ^ Hennessy , Gharacherloo , Mowry 와 
Weber , 1991) 은 여 러 가지 지 연시 간은패 기 구들에 대 한 성 능평 가기 준결과들을 보고하였 다. 
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적용범위 0% 37% 91% 91% 95% 

원천행 0 12 6 16 

그럼 5-17. Dash 다중처 리 기 의 MP3D 에 서 여 러 가지 미 리 꺼 내 기 방법 들의 효과 

미 리꺼 내 기 효과를 그림 5-17 에서 보여 주는데 Stanford Dash 다중처 리기의 MP 3 D 에 
기초하였다. 

모의실행 은 5개 단계 에서 64 x 8 x 8 공간배 렬의 10,000립자들을 포함한다. 

5개 의 미 리 꺼 내 기방법 들이 검 사되 였 다(그림 5-17 에 서 nopf , pfl , Pf 2 , pfi , pf^l 

이 방법들은 미리꺼내기가 없는 no ，/ 에서부터 시작하여 같은 반복에서의 립자기록 
혹은 반복증가수에 따라 관흐름화된것(즉 方1에서 p /4) 의 미리꺼내기로 배렬한다. 

막대기들은 « op / 방법에 관해 정규화된 실행시간을 보여 준다. 

매 막대 기 는 미 리 꺼 내 기，동기 화동작들을 위 해 요구되 는 시 간분석 을 보여 주는데 쓰 
기완충기，읽 기 그리 고 동작계 산 ( busy ) 을 리용한다. 

마지막 결과는 미리꺼내기들이 미리꺼내기가 없는 경우에 생기는 95%까지의 비적중들 
에 대해 발행된다는것이다(그림 5-17 에서 적용범위 ( coverage ) 인자로 표현된다.). 

미 리꺼 내기는 쓰기완충기읽기동작실현을 리용하여 동기 화동작들에서 뚜렷한 시 간감 
소를 일으킨다. 

뿌미 러 꺼 내 기방법 을 nc 材전 략과 비 교할 때 도달된 가장 좋은 속도증가는 1.86 이 다. 아직 
미리꺼내기의 리득은 응용의존성을 가진다. MP 3 D 코드에 미리꺼내기를 도입하기 위하여 수천 
개의 명령행들을 포함하는 원천코드에 16개의 외부코드행만을 추가하였다. 
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5. 5. 4. 완화형기억기일치성효과 

그림 5-18 에 3개의 성능평 가기준응용에서 SC (순차일치성)와 RC (해제일치성)의 실행 
시간분석을 보여 준다. 


SC HC SC RC SC ms ' 

MP3D LU PTHOR 

그림 5-18. 순차일치성 (SC) 과 해제일치성 (RC) 에서 
공유기억기모형을 완화시키는 효과 

실행시 간은 그림 5-18 에서 보여 준 캐쉬된 공유자료들에 관해 정규화된다. 결과들로 
부터 볼수 있는바와 같이 RC 기억기모형은 쓰기-비적중지연시간으로 인한 모든 휴지 ( idle ) 
시간을 제거한다. 

MP 3 D 와 PTHOR 의 SC 기 억 기 모형 에 서 쓰기 -비 적 중시 간은 큰 비 률을 이 루고 있기 때 문에 
(각각 35%, 20%) MP 3 D 와 PTHOR 에서 성능려득은 크다. 또한 LU 의 SC 기 억기모형 에서 쓰 
기-비 적중시 간은 상대 적 으로 작기때 문에(7%) LU 에서 성능려 득은 작다. 


5.6. 다중스레드화된 지연시간은페 

다중스레 드화는 문맥절환기 초우에서 다중문맥을 동시 에 조종할수 있도록 처 리기가 
설계될것을 요구한다. 

이 경우 처리기는 다른 프로그람스레드를 실행하기 위하여 절환되며 현재 스레드는 
자료/명령접근이 완성될 때까지 대기한다. 여기서는 다중문맥처리기들의 구성방식을 개괄 
한다. 다중스레드화의 효과와 처리기효률성의 개선을 고찰한다. 


니以 의 
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5.6.1. 다중스레드화된 처리기모형 

확대가능한 병렬콤퓨터는 처리기(미들의 망과 기억기 ( M ) 마디들로 모형화된다(그림 
5-19 1). 분산기 억기 들은 전역주소공간을 이 룬다. 다음의 4개 기 계파라메터 들은 체 계성 
능해석을 위해 정의된다. 

• 지연시간 L 이것은 원격기억기접근에 대한 경험으로 얻은 통신지연시간이다. L 
값은 망지연，캐쉬-비적중벌칙과 분할처 리 에서 충돌로 인한 지 연을 포함한다. 

• 스레드수 N 이것은 처리기에 끼워 넣을수 있는 스레드 수이다. 스레드 는 프로그 
람계수기, 등록기모임과 요구되는 문맥상래단어들로 이루어 진 문맥 에 의해 표현 
된 다. 

• 문맥-절환-부가처 리 C 이것은 처 리기 가 문맥절환을 수행할 때 잃은 주기들을 
가리킨 다. 이 시 간은 절 환기 구와 활성 화된 스레 드들을 유지 하는데 요구되 는 처 
리기상태들의 수에 의거한다. 

• 문맥절환들사이구간 /? 이것은 원격참조에 의해 기동된 문맥절환들사이의 주기 
들로 표현되 는 동작길 이 를 가리킨다. 

p = ■를 원격접근을 위한 요청률이라고 부르는데 프로그람동작과 기 억 기체 계 설계의 
결합을 반영한다. 

처 리 기 효률성 을 높이 기 위 한 한가지 방법 은 분산일 관성 캐 쉬 들을 러 용하여 요청 률을 
감소시키 는것 이 다. 다른 방법은 다중스레 드화를 통하여 처 리기대 기를 없애는것 이 다. 

다중스레 드화의 기 본개 념 을 아래 에 서 서 술한다. 

다중스레드화된 계산들 Bell [6 기은 그림 5-19 니에서 보여 준 다중스레드화된 병 렬 
계산모형의 구조를 서술하였다. 계산은 순차스레드 (1) 에서 출발하여 처리기들이 다중스레 
드들의 계산 (3) 을 시작하는 감독일정짜기(2)，를퓨터가 분산기억기 (4) 를 가질 때 마디들에 
서 변수들을 갱신하는 중간콤퓨터통보문들, 그리고 마지막으로 병렬작업 (5) 의 다음단시작 
이 전의 동기 화에 따라 진행한다. 

분산기 억기 구조에 서 고유한 통신부가처 리 기 간은 보통 계 산과정 에 분포되 며 중복될 수 
있 다. 

다중콤퓨터 들에서 통보문들과 부가처 리(보내 기 와 받기호출)는 병 렬계산으로 동작하 
는 전용하드웨 어 에 의해 감소될 수 있 다. 

계 산 grain 을 완성 하기 위 하여서는 일정 한 량의 자료들을 다른 매 듭으로 이동하여 야 
하므로 통신대역너비는 립도를 제한한다. 통보문넘기기호출 (4) 과 동기화 (5) 는 비생산적이 
다. 이 지 연들을 감소시키거 나 은폐시키는 고속기구들이 요구된다. 다중스레 드화는 단일 
스레드실행 에서 속도를 증가시 킬수 없지 만 약한 순서 화 혹은 완화형 일치성모형들은 속 
도를 증가시 킬 수 있 다. 

다중스레드화된 체계들은 다중문맥(혹은 다중스레드화된)처리기들로 구성된다. 이 절 
에서는 SaaVedra 등의 문헌에 기초한 추상모형을 고찰한다 [521]. 

기억기지연시간(쇼), 문맥수 ( A 0 그리고 문맥절환부가처리(幻의 함수로서 처리기효률성 
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발행을 고찰한다. 


처 리 기 효률성 단일스레 드처 리 기 는 원격 참조가 지 연시 간 L 주기 를 가지 는 동안 대 기 
한다. 그림 5-20 에서 모형화된바와 같이 다중스레드처리기는 현재문맥을 중지하고 다른 
문맥에로 절환한다. 


~ ' 一 _ _ _ ᅪ지이시:가니 

y 0 0 y [ 농 f] ."0y0y [ 은 1 

요청룰 (p = MR ) 

- t ) 확대가능한 병렬체계의 추상모형 


초기 일정 짜기 부가처 러 스레 드동기 화부가처 러 



MPP 체계에서 다중스레드화의 개념 


그림 5-19. 확대 가능한 다중처 리 기체계 를 위한 다중스레 드계산모형 


원격참조가 결정되지 않아도 문맥절환부가처리의 몇주기만 해보고 처리기는 다시 동 
작하여 유용한 작업을 해나간다. 모든 유효한 문맥들이 차단되기만 하면 처리기는 휴지 
상태에 있게 된다. 

명백한 목적은 처리기가 동작하는 시간을 최대화하는것이다. 다중스레드처리기의 효 
률성을 다음과 같이 정의한다. 

효률성 =동작/(동작 + 절환 + 휴지) (5.12) 

여기서 동작，절환 그리고 휴지는 처리기가 대응하는 상태에 있을 때의 시간량을 표 
시 한다. 다중스레드처 리기의 기본방법은 절환시간을 중가시키지 않고 부가처 리를 감소시 
키기 위해 몇개 문맥들의 실행을 끼워 넣는것이다. 

처리기상태는 처리기에서 여러가지 문맥들의 배치에 달려 있다. 그것의 수명시간 
동안에 문맥주기는 다음의 상태들을 통과한다. 즉 준비, 실행, 출발 그리고 차단. 

기껏해서 한개 문맥실행 혹은 출발이 있을수 있다. 

문맥 이 실행상태 에 있으면 처 리기는 동작하고 한개 문맥 에서 다른 문맥으로 이행하 
면 즉 문맥이 출발할 때 처리기는 절환한다. 

만일 그렇지 않으면 모든 문맥들이 차단되며 처리기는 부가처리상태에 있다고 본다. 

문맥 실 행 은 문맥 절 환을 요구하는 동작을 발행 할 때 까지 처 리 기 가 동작상태 에 있게 
한다. 

문맥은 출발상태 에서 C 주기를 소비하고 L 주기동안 차단상태 에 들어 가며 마지막에 








읽기상태로 다시 들어 간다. 

추상처 리기모형 다중스레 드처 리 기를 그림 5-20 에서 모형화하였 다. 간단히 하기 위해 
문맥당 한개 스레 드를 가정 하고 매 문맥 은 자기 의 하드웨 어자원들로 표시 된 다고 가정한다. 


둥록기 파일 



그림 5-20. 문맥당 한개 스레드를 가진 다중문맥처리기모형 


즉 프로그람계 수기，등록기 파일 그리 고 주소상태 단 ( PSW ) 이 다. 

매 문맥은 이 자원들로 충분히 실행가능하다고 하자. 다중등록기파일들을 가지고 한 
문맥에서 다른 문맥에로의 문맥-절환부가처리를 한개 혹은 두개 처러기주기들만큼 짧게 
할수 있다. 

5. 6. 2. 문맥절환방책 

각이한 스레 드화된 구성 방식틀은 러 용된 문맥 -절 환방법 들에 의해 구별된 다. 4가지 
절 환방법 들을 아래 에 서 지 정한다. 

(1) 캐쉬비적중에서 절환 문맥은 캐쉬비적중을 만날 때 절환된다. 이 경우 요는 캐 
쉬 비 적 중들사이 의 평 균구간(주기 들에 서 )이 고 L 은 캐 쉬 비 적 중에 서 다시 회 복하는 
데 요구되는 시간이 다. 

(2) 모든 적재에서 절환 이 방법은 모든 적재동작에서 절환을 하게 하는데 비적중과 
는 독립 이 다. 이 경 우 요는 적재 들사이 평 균구간을 표시한다. 일 반모형 은 절환다 
음에 L 주기동안 문맥 이 차단된다는것 을 가정 한다. 그러 나 이 것은 절환- on - 적재처 
리기인 경우 적재가 캐쉬비적중을 일으킬 때에만 있을수 있다. 두개의 지연시간 
(시과 La ) 이 있어서 매개는 모든 절환에서 발생 할 확률(미와 此)을 가진다고 가정 
하면 일반모형 을 쓸수 있다. 知이 캐쉬비적중에서의 지 연시 간을 표현하면 아은 비 
적 중률에 대 응한다. 지 연시 간 사은 확률 pi 을 가진 령 주기 기 억 기 지 연시 간이 다. 

(3) 모든 명령에서 절환 이 방법은 적재와는 독립인 모든 명령에서 절환하도록 한 
다. 다른 말로 주기 - by - 주기기 초우에 서 각이한 스레 들을 끼 워 넣 는다. 련속적 인 
명령들은 독립으로 실행되며 관흐름화된 실행으로 러득을 엄는다. 그러나 캐쉬 
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비 적중은 국부성 의 파괴 로 늘어 날수 있다. 그것 은 문맥 의 주기 - by - 주기엇끼 우 
기 가 캐쉬비적중에서의 절환에 비해 성 능우점 을 보여 주는 추적구동실험 에 의해 
증명되 였다. 이 때 문맥엇끼 우기는 관흐름의존성 을 은폐시키거 나 문맥-절환비 용 
을 낮출수 있다. 

(4) 명 령블로크에서 절환 여 러 가지 스레 드들에 명 령블로크들이 끼 워 진다. 이것은 
국부성 보존으로 캐쉬 -적 중률을 개 선한다. 그것 역 시 단일문맥성 능에 리득을 
준다. 

단일스레 드처 리 기효률성 단일스레 드처 리기는 원격참조가 발행될 때까지 요주기동안 
에 문맥 을 실 행한다. 그것 은 문맥 참조가 L 주기 동안에 완성 될 때 까지 휴지하게 된 다. 문맥 
절환은 없으며 명백히 절환부가처리도 없다. 

이 동작을 주기 요 + L 을 가진 재순환과정으로 모형화할수 있다. 와 L 은 각각 처리기 
동작과 휴지 에 대 응한다. 따라서 단일 스레 드처 리 기효률성 은 


으로 정 의한다. 

이것은 대용량기억기지연시간 L 을 가진 병렬체계에서 처리기의 성능저하를 명백히 
보여 준다. 그 경우 은 실행길이가 일반적으로 /?《 L 이기때문에 보통 낮다. 

다중스레 드처러 기 효률성 다중문맥 과 함께 기 억기지 연시 간은 C 주기부가처 리 를 가진 
새로운 문맥으로 절환함으로써 은폐될수 있다. 

절환들사이의 실행주기 는 문맥수에 따라 변하지 않으며 절환이 생길 때 문맥실행준 
비가 되여 있다고 가정하자. 

그러면 처리기는 부가처 리될수 있다. 처 리기효률성은 그림 5-21 에서 보여 준바와 같 
이 두개의 서로 다른 조건밑에서 아래와 같이 해석된다. 

포화범위 포화범위에서 처리기는 최대러용을 가지고 동작한다. 이 경우 반복동작주 
기 는 요 + C 이 고 효률성 은 간단히 


E sat 


R _ 1 

R + C ~\ + C!R 


(5.14) 


로 정의된다. 

포화에 서 효률성 은 지 연시 간 L 과 독립 이 고 문맥수증가에 따라 변하지 않는다. 포화 
는 단일스레드를 처리하는데 요구되는 시간보다 다른 스레드를 봉사하는데 처리기가 더 
많은 시 간을 소비할 때 즉 ( H )(/?+ C )> L 일 때 도달된다. 이것은 실행길 이상수조건에서 
포화점을 준다. 
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그림 5-21. 포화와 선형범위 에서 다중스레 드처 리기의 문맥절환 


사습 + 1 (5 ' 15) 

선형범 위 문맥 수가 포화점아래일 때 문맥절 환이후에 준비문맥 들이 없 을수 있다. 그 
래서 처리기는 일부 휴지주기들을 경험을 통해 얻을수 있다. 준비문맥으로 절환하고 원 
격참조가 발행 될 때 까지 그것 을 실 행하며 참조를 처 리하는데 요구되 는 시 간을 요 + C + 쇼에 
더한다. 이 시 간동안에 다른 모든 문맥들은 처 리기 에서 전환한다. 따라서 효률성은 


E lin 


NR 

R + C + L 


(5.16) 
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로 주어 진다. 

그림 5-22 에서 효률성에 관한 두개 식 (5.14) 와 (5.16) 은 식 (5.15) 의 포화점 均에서 만 
난다. 처러기효률성은 포화점 에 이를 때까지 문맥수에 따라 선형으로 증가한다. 그 점을 
지나서 爲 at 곡선은 처리기효률성에 최대한도를 준다. 

다중 스레드 화는 처리기효률성과 망통행을 증가시 킨다는것을 알수 있다. 이 두개의 
반대 되 는 목표들사이 에 Agarwal [9] 에 서 토론된바와 같이 절 충이 존재한다. 

실례 5.11. 다중스레 드처 리 기 에서 원격기 억기지 연시 간은폐 

50~200처 리 기 주기 의 원격기 억기 지 연시 간을 가진 병 렬 콤퓨터 를 고찰하자. C -1, 4, 16 
에 대 한 문맥 -절 환부가처 리 의 3가지 경 우를 가정한다. 

Saavedra 등 [522] 는 스레드실행길이 가 요=16 Cycles 인 가정밑 에서 처 리기효률성 에 대 
한 수값결과들을 엄 었 다. 이 결과들을 표 5-6 에 제시한다. 


표 5-6 두개 다중스레드화된 구성방식들에 대한 처리기효률성 


문맥 절환 
부가처리 

(Q 

N =2 

처리기당문맥 ^ V =6 

X -50 

£=100 

£ = 150 

L = 200 

£ = 50 

[=100 

£ = 150 

1 = 200 

1 

0.48 

0.29 

0.22 

0.15 

0.94 

0.76 

0.68 

0.45 

4 

0.45 

0.27 

0.21 

0.15 

0.80 

0.68 

0.56 

0.44 

16 

0.36 

0.25 

0.16 

0.14 

0.50 

0.49 

0,45 

0.41 


여 기서 보여 준 결가과들은 파라메터 수값들을 식 (5.14), (5.16) 에 대 입하여 엄 었 다. 
두가지 경우가 평 가되 였는데 하나는 두개 문맥처 리 기를 리용한것 이 고 다른것은 6 개문맥 
처 리 기를 리용한것 이 다. 표로부터 다음과 갈은 몇 가지 흥미 있는 관측결과들을 볼수 있다. 

• 두개 문맥처 리 기를 러용하면 처 리기효률은 기 억기지 연시 간의 증가와 높은 문맥절 
환부가처리에 관해 0.48 에서 0.14 로 급격히 떨어 진다. 다시 말하여 두 문맥들사이 
절 환은 50주기 이 상의 기 억 기 지 연시 간을 은폐 시 키 는데 는 충분하지 않다. 

• 처 리기효률성 에서의 저하는 두개 문맥처 리기들인 경우보다 6개문맥처 리기들에 
서 훨씬 낮다. 효률성 을 두배 이상 올리 자면 두개 문맥처 리 기들보다 6개 문맥처 
리 기 들을 리용해 야 한다. 

• 문맥절환의 극히 낮은 부가처리에서 ( C = l 처리기주기) 6개 문맥처리기들을 리용하 
면 처러기효률성은 0.94 와 0.68 사이에서 보장하면서 50-150 주기의 기억기지연시 
간을 은페할수 있다. 

• C =16 주기인 경우 처리기효률성은 0.5 이하로 되여 두가지 형태의 처리기구성방식 
에서 접수할수 없다고 본다. 

• 문맥절환부가처러 (3=4 주기에 대해서 처리기효률성은 기억기지연시간이 증가하 
는데 따라 C =1 주기 인 러 상적 인 경 우로 수렴한다. 
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RC: 해제일치 성 
MC: 다중문맥 
CC: 일관성 캐쉬 
PF: 미 러 꺼 내 기 




CC CC CC CC 
+ RC + RC +RC +RC 

+ PF + MC +MC + 


그림 5-23. Stanford Dash 다중처 리 기 의 MP3D 성 능평 가기 준결 과에 
기 초한 여 러 가지 지 연시 간은폐 기 술들의 결 합효과 

실행시 간의 동작부분은 모든 기구결합에서 같다. 이것은 MP3D 프로그람이 실행하는 
CPU 동작시간에 대응한다. 

막대 기 에서 휴지 부분은 모든 캐쉬비적중벌칙을 포함하는 기 억기지 연시 간에 대 응한다. 
모든 시간들은 패쉬일관성체계들에서 요구되는 실행시간 (100 단위)에 관해 정규화 
된 다. 

맨 왼쪽 막대기 (241 단위)는 공유읽기 혹은 쓰기가 없이 전용캐쉬를 배타적으로 리 
용하는 가장 나쁜 경 우에 대응한다. 긴 부가처 리는 이 경우에 과도한 캐쉬비적중에 
의해 생긴다. 캐쉬일관성체계의 리용은 전용인 경우에 2.41 배의 성능을 가져 온다는것 
을 보여 준다. 

모든 나머 지경 우들은 하드웨 어일 관성캐쉬 들을 러용하는것 을 가정한다. 

해 제일치 성리용은 일관성 체 계 에 비해 35%의 성능개선을 보여 준다. 미 려꺼 내 기 추가 


우의 수값결과에 기초하여 85%효률성을 가진 처 리기설계를 추정할수 있다. 

문맥 절 환부가처 리 는 2주기 이 상이 아닌 구성 방식 을 선택 한다. 매 처 리 기 에 서 문맥 수 
는 75처 리 기주기 까지 의 기 억기 지 연시 간을 은페 시 키 기 위하여 4로 정한다. Agarwal [9] 는 
작은 수의 문맥 에서 절환만이 체 계성능에 리득을 준다는것을 지 적하였다. 많은 스레 드들 
은 제 한된 자원들의 과도한 문맥절 환을 일 으켜 경 쟁할수 있는데 그러 면 성 능을 심하게 
떨군다. 다중토막화된 기계 의 좋은 실례 는 Tera 다중처 리 기체계 [2 刀이다. 흥미 있는 실지 설 
계 와 성 능평 가기 준실 험 을 위 해 Tera 의 개 발계 획 에 종사하려 고 할수 있 다. 

다중스레 드기 계 가 콤퓨터공업 에 서 상업 적 가치 가 있 다는것 을 증명하지 못하였 다. 

5. 6. 3. 지연시간은페결합기구 

여 러 가지 지 연시 간은페기 구를 결 합한 효과를 Stanford 대 학의 MP3D 성 능평 가기 준결 과 
에 기초하여 그림 5-23 에 보여 준다. 

다중문맥 (MC) 처 리 기 들을 리용한 효과를 PF (미 리 꺼 내 기 )， CC (일 관성캐 쉬 )， RC (해 제 일 
치 성 )와 같은 다른 지 연시 간은페기 구와 함께 제 시한다. 
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는 시 간을 44 단위 로 더 감소시 킨 다. 가장 좋은 경 우는 일 관성캐 쉬 RC 와 MC 로 결 합하여 
리 용하는것 이 다. 

맨 오른쪽 시 간막대기는 4 개 기구들을 모두 결합하여 얻은것 이다. 결합결과는 개별 
적 인 캐 쉬 들을 리용한 경 우에 비해 4~7 배 의 속도개 선을 보여 준다. 

Stanford 에 서 보고된 우의 성 능평 가기 준결과들은 일관성캐 쉬 와 완화형 일치성 이 모두 
성능을 개 선한다는것을 보여 준다. 미 리꺼내 기와 다중문맥 으로부터의 성능개 선은 눈에 
보이는 정도이지만 응용의존성 이 훨씬 높다. 

여 러가지 지 연시 간은폐기구의 결합은 일반적으로 매 기구를 따로따로 적용한것보다 
좋은 성능을 얻는다. 

다른 말로 4 개 기구들은 매개의 효과를 취소하기 보다는 서로 지원한다. 

5.7. 참고문헌주해와 련습문제 

작업모임의 개념은 Denning[203] 에서 소개되였다. 

기 억 기 용 량계 획 작성 을 위 한 선형 계 획 최 량화방책 은 Chow[15 刀에 서 서 술된 다. Cragon[171] 
은 관흐름처 리기설계를 위한 기억기체계를 토론하였다. Przybylski[51 이이 쓴 책은 캐쉬 기 억 
기 구성 방식 을 취 급한다. Flynn[245], Hwang[327], Patterson 파 hennessy[305] 들의 책 들은 순 
차와 병 렬 구성 방식 에 서 여 러 가지 요구에 대 한 계 층기 억 기 설 계 를 취 급하였 다. 

MESI snoopy 규약은 Pentium 처 리기에서 쓰인것에 기초한다 [31]. Censier 와 Feautrier[135] 
는 캐쉬등록부구조를 제 기하였 다. Dubois 등은 [219] 동기 화，일관성 그러 고 다중처 리 기들 
에서 사건순서화를 특징 지 었다. Smith[568] 은 1980 년 초까지 개 발된 캐쉬기 억기들을 평가 
하였다. 

Chaiken 등 [13 기과 Agarioal 등 [11] 은 MIT Alewife 다중처 리 기 에 서 등록부에 기 초한 
규약을 평가하였다. 

캐 쉬 구성 방식 에 서 다른 개 발은 Cubois 와 Thakkar[220], Stone[59()] 에 서 찾아 볼수 있 다. 

Adve 와 Gharachorloo 는 공유기 억 기 일 치 성 모형 들의 개 괄을 제 공하였 다 [8]. 순차일 치 성 
개념은 Lamport 에 의 해 개발되였다 [391]. 약한 일치 성기 억 기모형은 Dubois 등에 의 해 제 
기되였다 [218]. TSO 와 PSO 의 약한 모형들의 형식적고찰은 Sindhu 등에서 주어 졌다 [558]. 

Adve 와 Hill [기은 약한 순서화발행을 연구하였다. 처러기일치성모형은 Goodman[273] 
이 제 기하였 다. 

Stanford 해 제 일 치 성 모형 은 Gharachorloo[264] 등에 서 찾아 볼수 있 다. 

상업적 완화형기 억 기모형들은 IBM 체 계 /370 [341], Sun SPARC[579], Cray 
GiagRing[339], Digital Alpha[563], IBM PowerPC[434] 를 위해 연구개 발되 였 다. 

4 개 의 공유기 억 기 모형 들 이 Chong 과 Hwnag 에 의 해 평 가되 였 다 [155]. Stanford Dash 다 
중처리기는 Lenoski 등 [405] 에서 보고되였다. 

KSR-1 은 Burkhardt 등 [116] 에서 서술된다. 

Swedish DFM 은 Hagersten 등 [293] 에서 보고된다. 

Bisiani 와 Ravishanker[83] 은 PLUSDSM 체 계 를 개 발하였 다. Nitzberg 와 lo[468] 에서 서 술 
되 고 TreadMarks 는 Rice[30] 에 서 ， Wind Tunnel 은 Wisconsin[515] 에 서 ， Shrimp 는 
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Princeton [237] 에 서 서 술된 다. 

Stenstrom 등은 CC - NUMA 와 COMA 구성 방식 의 성 능을 비 교하였 다. 쏘 프트웨 어 조종 
미리꺼내기를 통한 지연시간허용은 Mowiy 와 Gupta [454] 에서 연구된다. 

Gupta 등은 분산일관성캐쉬들의 효과를 평가하였다 [285]. 

Saavedra 등 [522] 은 여 러 가지 자료미 리 꺼 내 기 방법 으로 평 가하였 다. 

다중스레 드구성 방식 의 훌륭한 개 괄은 Nikhil [46 刀에 의해 주어 진 다. Saavedra 등[沈 1] 
은 병 렬계산을 위한 다중스레 드구성 방식을 모형화하였다. 

Smith [569] 는 다중토막화계 산에 관계 하는 자료국부성 을 고찰하였 다. 여 러 가지 지 연시 
간은폐 기술들은 역시 Hwang [32 刀과 Culler 등 [8] 에서 취급된다. 

문 제 

문제 5.1. 계 층기 억기 설계 및 관리 와 관계 되 는 다음과 같은 기 술용어 들을 정 의하시 오. 

(1) 가상주소공간 

(2) 물러주소공간 

(3) 주소 이행 

(4) 캐 쉬행크기 

(5) 캐쉬적중률 

(6) 폐 지 오유 

(7) 기 억 기 교체방책 

문제 5.2. 2-준위계 층기 억기 M “ M 2 을 고찰하시 오. M ! 의 적 중률을 사로 표기하자. Ci 
과 幻을 KB 당 비용，자과 s 2 을 기억기용량，다과 을 접근시간이라고 하자. 

(1) 어떤 조건에서 전체 기 억기체계의 평 균비 용을 값 c 2 로 다가가게 할수 있는가. 

(2) 이 계 층가운데 서 유효기 억 기 접 근시 간 ~는 무엇 인 가? 

(3) 을 두개 기억 기들의 속도률이 라고 하자. E = ti / t a 는 기억기체계의 접근유 
효성 이라고 하자. 표를 r 와 ft 용어 로 표시하시 오. 

(4) 그라프종이 에 서 ^5, 20,100인 경 우 / z 에 대 한 月를 곡선으로 표시하시 오. 

(5) 广100인 경우 효률성 이 £>0.95 이 기 위해서 요구되는 적중률 h 는 얼마인가? 

문제 5.3. 2-준위기 억기체계 에 대한 용량계 획작성문제를 고찰하자. 첫번째 준위 에서 
M ! 은 64 KB , 128 KB 그리고 256 KB 의 3개 용량가운데 어느 하나를 가진 캐 쉬 이 다. 

두번째 준위 에 서 M 2 은 4 KB 용량을 가진 주기억 기 이 다. Cl 과 c 2 은 바이 트당 비 용，다과 
&은 파 M 2 에 대 한 접 근시 간이 다. C !-20 c 2 , 는10하이 라고 하자. 3개 용량들에 대 한 패 쉬 
적중률을 각각 0.7, 0.9, 0.98 이 라고 하자. 

(1) 3개 캐쉬설계 에 서 다 =20 ns 일 때 평 균접 근시 간 4는 얼마인가?어은 CPU 에 서 M ! 
에로, h 은 CPU 에서 M 2 에로의 시 간이 다. M ! 에 M 2 에로의 시 간은 아니 다.) 
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(2) KB 당 비용이 c 2 =0.2$/ KB 로 주어 진 전체 계층기억기의 평균비용을 구하시오. 

(3) 3개 기억기설계들을 비교하고 평균비용순서, 평균접근시간순서를 각각 밝히 
시 오. 평 균비 용과 평 균접 근시 간결 과에 기 초한 최 량설 계 를 선 택 하시 오. 


문제 5.4. 다준위계 층기 억기 에서 포함성 질과 기 억 기 일관성 요구를 설명 하시 오. 린 
접 한 준위 에 서 일 관성 을 유지 하는 련속쓰기 와 후쓰기 를 구별하시 오. 또한 계 층의 물러 
기억기와 가상기억기를 유지하는데서 페지와 토막화의 기본개념을 설명하시오. 

문제 5.5. 다음과 같은 파라메터값들에 대 해 문제 5.3 을 다시 고찰하시 오. A ^ O .95, 
다 =20 ns , 미 =512 KB , ci =10$/ KB , c 2 =5 $/KB 이 다. 과 的은 미지수이 다. 

(1) 계층기억기의 전체 비용은 웃한계로서 15000$이다. 

(2) 이 기 억 기 체계 에서 유효접 근시 간 f eff 를 보여 주는 식 을 유도하시 오. 

(3) 이 기 억기 체계의 전체 비 용을 보여 주는 식을 유도하시 오. 

(4) 예산제한을 초과함이 없이 M 2 이 얼마나 큰 용량(하=?)을 엄을수 있는가? 

(5) 유효접 근시 간 4 ff -40 ns 를 얻 기 위 해서는 주기억기 가 얼마나 빨라야 하는 
가? fe =?) 

문제 5.6. 국부성에 대하여 다음의 질문에 대답하시오. 

계 층기 억기 에서 프로그람/자료접근과 관계되 는 시 간국부성 , 공간국부성 과 순차국부성 
을 설명하시오. 

작업모임이란 무엇인가? 작업모임크기에 대한 관찰(감시)창문크기의 민감성에 대하 
여 해석 하시오. 이것은 주기억기적중률에 얼마나 영 향을 주는가? 

90-70 법칙과 참조국부성에 대한 관계는 무엇인가? 

문제 5.7. p 개 처 리 기 를 가진 RISC 에 기 초한 공유기 억 기 다중처 리 기 를 고찰하자. 

매 처리기는 명령캐쉬와 자료캐쉬를 가진다. 매 처리기(두 캐쉬들에서 100% 맞힘률 
과정 )의 최 대 ( peak ) 실 행 률은 ； c MIPS 이 다. 캐 쉬 비 적 중，공유기 억 기 접 근 그러 고 동기 화부가 
처 리기를 고려하면서 성능식을 유도하려 고 한다. 동기 화목적으로 평균 @퍼 센트의 명 령 
들이 실행되였고 매 동기화동작에 대한 벌칙을 추가적인 bus 이라고 가정하자. 명령당 평 
균 기 억 기참조수를 m 으로 가정한다. 

CPU 에 의한 모든 기억기참조들가운데서 /,■는 명령에 대한 참조비률(퍼센트)이라고 
하자. 기계에서 프로그람추적이 긴 주기다음에 명령캐쉬와 자료캐쉬는 각각 적중률 均와 
h d 를 가진다고 가정하자. 

캐쉬 비적중에서 명 령과 자료는 평 균접근시 간 ‘을 가진 공유기억기 로부터 접근된다. 

(1) P , x , m , f h h d , t m , @, 4에 의 해 다중처 리 기의 유효 MIPS 률에 근사한 식을 유 
도하시 오. 

(2) m =0.4, / p 0.5, 씨=0.95， hj = OJ , @=0.05， x =5， f m =0.5 us ，4=5 us 가 주어 졌 다. 유효 
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전체 실행률 25 MIPS 를 얻는 우의 다중처리기체계에서 펼요되는 처리기최소수 
를 결정하시오. 캐쉬일관성，접근충돌 혹은 폐지오유에 의해 생기는 다른 모 
든 기 억 기 간섭 들은 무시하시 오. 


문제 5.8. 다음과 같은 비용정보가 주어 졌을 때 문제 5.7 을 다시 고찰하자. 모든 캐 
쉬들과 공유기 억기의 전체 비용은 웃한계로서 25000 $을 가진다고 가정한다. 캐쉬기억기 
비 용은 4.70$/ KB , 공유기 억 기 비 용은 0.4$ /KB 이 다. 々=16처 러 기 들에 대 해 매 개 처 리 기 는 
명 령 캐 쉬 i ,=32 KB 와 자료캐 쉬 & =64 KB 일 때 주어 진 계 산제 한에 서 엄 을수 있는 최 대 공 
유기억 기 용량 c „( MB ) 은 얼마인가? 

문제 5.9. 상태 이 행 도표를 가진 다음의 3개 Snoopy 규약을 규정 하시 오. 이 규약들을 
캐 쉬 상태 수가 증가되 는데 따르는 3개 캐 쉬구성 방식 에 적 용한다. 모든 캐 쉬 상태，캐쉬사건 
그리고 Snoopy 모선사건은 지정되여야 한다. 

(1) WT 캐쉬들에 대한 두개 상태 SI 규약. 여기서 요는 공유상태， I 는 캐쉬행의 무 
효상태 이 다. 

(2) WB 캐쉬들에 대 한 3개 상태 MSI 규약. 여 기서 S 와 I 는 우와 같고 보은 캐쉬행 
의 변경상태이다. 

(3) 결합형 WT 7 WB 에 대 한 4개의 상태 MESI 규약. 여 기서 E 는 캐 쉬행 이 단 한번 
만 씌여 지는 배타적상태 이다. 

문제 5.10. 공유기 억기를 가진 두개 처 러 기 에서 두 프로그람 ( P 0 과 마)의 병 행실행 을 
고찰하자. 변수 A , B , C , D 는 값 0으로 초기 화되 고 Print 지 령 문은 두개 변수를 같은 주기 
에 나누어 인쇄한다고 가정 하자. 

출구는 ADBC 혹은 BCAD 로서 4_ taple 을 이룬다. 

P 0 : Pi ： 

a . A =1 d . C =1 

b . B =1 e . D =1 

c . Print A,D f . Print B,C 

(1) 개 별적 인 프로그람순서를 보존하는 5개 명 령 문들의 모든 실행엇끼우기순서 를 
쓰시오. 

(2) 프로그람순서 들이 보존되 고 모든 기 억 기접근들이 매 우 적 다고 가정한다. 즉 
한 처리기에 의한 기억은 다른 처리기에 의해 즉시 볼수 있다. 모든 가능한 
4조의 출구결합을 쓰시오. 

(3) 프로그람순서들이 보존되지만 기억기접근은 적지 않다고 하자. 즉 한 기억기 
에 의한 기 억은 어떤 다른 처 러기들이 갱 신된 자료를 즉시 에 관측(감시)할수 
있도륵 완충할수 있다. 이 조건에서 모든 가능한 4조의 출구결합을 쓰시오. 
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문제 5.11. Stanford Dash 계층기억기와 등록부규약을 연구한후 성능분석을 통하여 다 
음과 같은 질문에 대 답하시오. 

(1) Dash 다중처 리 기 구성 방식 에 서 쓰인 패 쉬 상래 들을 규정 하시 오. 

(2) 계 층기 억기 에서 캐쉬등록부들이 어 떻게 실행되 는가? 

(3) 원격클라스에서 오물인 원격캐쉬불로크를 읽을 때 Dash 등록부에 기 초한 일관 
성규약을 설명하시오. 

문제 5.12. 확대가능한 다중처리기，다중콤퓨터 혹은 콤퓨터클라스터를 제작하기 위 
한 NOMA 와 NORMA 기 억 기 구성 방식 을 특징 지 으시 오. 

매 캐쉬 에서 전용구성 방식특징제 작을 설명하는 실례연구로서 실례콤퓨터체 계 를 선택 
하시 오. 그것 들의 장점 과 결 점 을 비 교하시 오. 

(1) CC-NOMA 구성방식 

(2) COMA 구성방식 

(3) NCC-NOMA 구성방식 

(4) 쏘프트웨 어 실 행 형 DSM 구성 방식 

(5) 성긴결합클라스터 NORMA 구성방식 

(6) MPP 를 위 한 밀 집 결 합 NORMA 구성 방식 

문제 5.13. 작거 나 큰 작업모임과 낮거 나 높은 통신-계산률에서 NUMA 와 COMA 구성 
방식의 성능을 비교하시오. 

(1) 주어 진 응용프로그람에서 두 구성 방식들이 낮은 CCR 와 작업모임을 가질 때 
왜 잘 수행할수 있 는가를 설 명 하시 오. 

(2) 큰 작업모임，낮은 통신-계산률을 가질 때 COMA 구성 방식 이 NOMA 구성 방식 
보다 왜 더 잘 수행하는가를 설명하시오. 

(3) 작은 작업 모임，높은 통신-계 산률을 가질 때 COMA 기 계 는 NOMA 구성 방식보 
다 왜 더 나쁘게 수행하는가를 설명하시오. 

문제 5.14. 다음의 지 연시 간허 용기 술의 기 본내 용을 요약하여 설명 하시 오. 쏘프트웨 어 
와 하드웨 어방법 들을 고찰해 야 한다. 

(1) 지연시간감소기술 

(2) 지연시간회피기술 

(3) 지 연시 간은페기 술 

(4) 분산일 관성캐쉬 

(5) 읽 기 지 연시 간은패 를 위한 자료미 리 꺼 내 기 

(6) 쓰기 지 연시 간은폐 를 위한 다중스레 드화 

문제 5.15. 다중처 리 기 체 계 의 공유기 억 기 에 대 한 다음 4개 의 일 치 성 모형 에 서 기 억 기 
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접근제한을 비교하시오. 

스레드당 동기화접근은 물론 읽기，쓰기접근을 취급해야 한다. 

(1) Dubois 등에 의해 지정된 약한 일치성 ( WC ) 기억기모형 

(2) Good man 에 의 해 지 정 된 처 리 기 일 치 성 ( PC ) 기 억 기 모형 

(3) Lamport 에 의 해 지정된 순차일 치성 ( SC ) 기 억 기 모형 

(4) Gharachorlco 등에 의 해 지정된 해제 일치성 ( RC ) 기 억기 모형 

문제 5.16. 분산공유기 억기 인 p 개 프로쎄스마디를 가진 확대 가능한 다중처 리기를 
고찰하자. 

1/穴을 호상접 속한 망을 통해 원격 기 억 기 에 접 근요청 을 발생하는 매 프로쎄 스마디 의 
비 률이 라고 하자. 

L 은 원격기 억기접근을 위한 평균지 연시 간이 라고 하자. 

다음과 갈은 조건에서 처 리기효률 표에 대 한 식을 유도하시오. 

(1) 매 처 리 기 는 단일 스레 드이 고 지 연시 간은페 를 위 한 일 관성 지 원 혹은 다른 하 
드웨어지원 이 없 이 개 별캐쉬만을 러 용한다. 

(2) 일 관성캐 쉬 가 자료공유를 가진 하드웨 어 에 의해 지 원되 고 ft 는 원격 요청 이 국 
부캐 쉬 에 의해 만족될 수 있 는 확률 이 라고 가정 하자. 표를 R, L, ft 의 함수로서 
표시 하시 오. 

(3) 이제 매 처리기가 서개의 문맥을 동시에 조종할수 있도록 다중토막화되였다 
고 하자. 문맥-절환부가처 리 를 C 라고 하면 표를 N, R, L, h, C 의 함수로 표시 
하시 오. 

(4) 이 제 여?이 고 쌍방향련결 인 2차원 rxr 원 환체 ( torus ) 리용을 고찰하자. ~를 린 접 
한 마디사이 의 시 간지연，&을 국부기 억 기접 근시 간으로 하자. 

망이 완충이 없이 매 요청에 충분히 빨리 응답한다고 가정하자. 

지 연시 간 L 을 P, t d , &의 함수로 표시 하시 오. 

그다음 효률 표를 N, R, h, C, P, t d , ‘의 함수로 표시 하시 오. 

문제 5.17. 4개 문맥절환방책을 비교하시오. 

즉 캐쉬비적중에서 절환，모든 적재에서 절환，매 지령주기에서 절환 그리고 명령블 

로크. 

(1) 매 문맥절환방책을 실현하는데 왜 전용하드웨어와 쏘프트웨어지원이 필요 
한가? 

(2) 매 문맥절환방책의 우점과 결점은 무엇인가? 

(3) 처리기복잡성과 효률성에 따라 4개 방책들을 정렬하시오. 

(4) 어 떤 프로그람동작에 서 매 방책 들을 충분하게 수행할수 있 는가? 
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제 6 장. 체계호상접속과 기가비트망 


이 장에서는 리용가능한 망기술과 체계호상접속에 대하여 고찰한다. 

중점은 표준적인 호상접속들과 상품망들 그리고 그 설계와 응용원리들에 두고 있다. 

그리고 위상들과 규약들, 모선들의 접속，크로스바교환기들，다단교환기들, 매체공유 
망들，세포절환 및 파케트교환망들을 고찰한다. 

이 내용들은 다음장들에서 병렬 또는 클라스터를퓨터의 구조를 고찰하는데 필요하다. 

6. 1 . 호상접속망의 기초 

교환구조들은 현대 롬퓨터망의 핵심부이다. 아래에서는 기본적인 망술어들과 환경들， 
분류, 표준규약들, 현재의 고대 역 너 비망들에 대 한 성능척도들을 소개 한다. 

이 책에서 망은 여러 콤퓨터들사이의 접속으로 리해한다. 

체 계 호상접 속은 통합콤퓨터 체 계의 부분체 계들을 하나로 결합한다. 다중콤퓨터 클라스 
터는 두가지 형태의 호상접속구조를 사용하여야 한다. 

6. 1. 1. 호상접속환경 

확대 가능한 다중처 리기 나 다중콤퓨터클라스터，분산체계 에서 그 구성요소(탁상호스 
트와 봉사기 , 교환기，망, 적 응기 기판과 주변장치 등)들은 5개 의 망환경 들에 호상접 속 
된 다. 

체계 또는 ]/ ◦모선이나 크로스바/다단교환기들은 를퓨터가동환경의 단일시렁이나 같은 방 
에서 호상접속된 몇개의 시렁들내로 한정된 체계호상접속들이다. 

여 러 망기 술들을 그림 6-1 에 서 와 같이 2차원공간에 배 치할수 있 다. 

체 계 망 ( System-Area Network , SAN ) 은 처 리 기 들과 기 억 기，대 면부기 판들을 짧은 거 러 
내 에 서 마이 크로스트리 프 ( microstrip ) 케 블로 접 속한다. 

국부망 ( LAN ) 은 건물이 나 구내 또는 기 업 소범 위 로 제 한된다. 

지역망 ( MAN ) 은 전체 지역이나 한개 도시를 포함한다. 

광지역망 ( WAN ) 은 흔히 여 러개의 보다 작은 망들의 호상접속으로 보는데 따라서 긴 
거리로 확장할수 있다. 

이 망기술들은 다음부분들에서 서술된다.그림 6-1 은 1997년의 기술에 기초하고 있다. 

최 대 망거리 는 왼쪽에 서 오른쪽으로 수평 축을 따라 중가한다. 

호상접속환경 들은 동작거 리 에서 일부가 겹칠수 있다. 겹치는 현상을 고려하여 그림 
6-1 에 서 거 리 규모는 표식하지 않았다. 

모선들과 망에 대 한 술어들의 모임 을 정 의하는데 그림 6-2 가 리 용된다. 이것은 공업 
과 여러 대학에서 널리 리용된 다. 처리기소편의 판들은 처리기모선을 형성 한다. 

처 리기 와 기 억모둘들을 련결하는 모선은 국부모선 또는 기 억모선이라고 부르는데 그 
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길이는 10 cm 내에 있다. 

체 계모선(또는 I / O 모선 이라고 부론다.)은 디 스크구동기 , 레 프구동기，망대 면부기판과 
같은 I / O 장치 들을 련결하기 위한 확장홈들을 제 공한다. 

확장홈은 국부모선과 I / O 다리 회 로를 통하여 접 속된 다. 체 계모선은 흔히 모판이 나 체 
계 시 렁 의 뒤 쪽 판 또는 중심 판에 내 장되 며 따라서 그 한계 는 2 m 이 다. 

체 계모선의 실 례 로서 AT 모선 ( ISA ), EISA 모선, PCI 모선 그리 고 IBM PC 들에 서 사용되 
는 Micro Channel , Sun 워크스테 이션들의 Sbus 를 들수 있다. 

술어 I 八)모선은 종종 SCSI(Small Computer System Interface ) 모선을 가리 킨다는데 주의 
하여 야 한다. 

케 블기 술에 따라 내 장 I / O 모선은 3 m 를 넘지 않으며 외부 SCSI 케 블은 약 20 m 까지 확 
장될수 있다. 

많은 다중처 리 기들과 다중콤퓨터체계 들은 자기의 하드웨 어를 몇개의 마디들로 나눈다. 

단일체계를 형성하기 위하여 이러한 마디들을 하나로 접속하는 망을 체계망 ( SAN ) 이 
라고 부론다. 대조적으로 국부망은 여 러 체계들을 접속하는데 사용된다. 물론 기술(실례 
로 이써네트)은 체계망들과 국부망들에서 사용될수 있다. 체계의 구성은 9장에서 명백히 
고찰하므로 여 기서 는 클라스터 들과 단일체 계영 상을 상세 히 서 술한다. 

체 계 망은 3~25 m 범 위 에 있 다. 

국부망은 25~500 m 범위에 있으며 2 km 까지 확장할수 있다. 

지 역망은 보통 25 km 까지 또는 그이상으로 확장할수 있다. 

광대역망은 본질에 있어서 거리에 한계가 없다. 이것은 국제적인 령역으로 확장할수 
있 다. 

수직축은 단위 시 간에 호상접 속 또는 망을 통하여 전송가능한 정 보의 최 대 량으로 정 
의되는 망대역너 비의 증가에 대응한다. 

일부 전문가들은 이것을 간단히 망의 속도라고 부론다. 흔히 Mbps(Million bits per 
seconds ) 또는 Gbps (Giga bits per seconds ) 로 측정 한다. 

그림 6-1 에서 보여 준 호상접속기술들은 대역너비가 10 Mbps 로부터 lOOGbps 까지의 
범위에 있다. 

다음부분들에서는 모선들과 크로스바교환기 그리고 여 러 가지 망기술들의 속도를 고 
찰한다. 

앞으로 특정 한 기술에 의해 대 역너비 가 높아 지고 케블거 리는 증가될것 이 다. 그러 
하여 그림 6-1 에서 둘러 싸인 령역들중의 일부는 웃쪽의 오른쪽 구석 을 향하여 이동할것 
이다. 

Tbps(Tera bits per seconds ) 망속도는 2000년에 는 훨씬 높아 질것 이 다. 

6.1.2. 망구성요소 

모든 교환망들은 기본적으로 세개의 구성요소 즉 련결(통로 또는 케볼)，교환기(경로 
기:)，망대면부기판들로 구성된다. 

매체 공유망#은 교환기를 사용하지 않는다. 망의 다른 특징들을 보기전에 아래 에서 
망구성요소들을 잠간 소개한다. 
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련결 또는 통로，케블 

3개의 술어들은 모두 콤퓨터체계안에서 두개의 하드웨 어단위들사이의 물리적련결을 
의 미 한다. 

련결은 동선이나 빛섬유케블로 실현할수 있다. 가장 단순한 련결은 동선으로 된 비 
차폐꼬임쌍선 ( UTP ) 이 다. 동선련결은 값이 눅지만 신호법문제로 해서 짧은 케블길이로 제 
한된다. 케 블길 이 를 차페 꼬임 쌍선 ( STP ) 을 사용하면 일정한 정 도로 확장할수 있 다. 빛섬 유 
케블은 값은 비싸지만 매우 높은 대역너비와 보다 긴 케블길이를 제공한다. 

일부 저자들은 련결을 통로나 케볼이라고 부론다. 

련결은 두개의 교환기를 련결하거나 교환기와 호스트마디에 설치된 망대면부를 련결 
할수 있 다. 짧은 련결은 한번에 오직 하나의 론리신호만을 포함하며 한편 긴 련결은 전 
송선처 럼 론리신호들의 렬을 같은 시각에 선로를 따라 넘기기시 킨다. 

직 렬련결 이 나 얇은 련결은 다중화된 방식 에서 자료와 조종신호들에 의해 공유되 는 
lbit 선로를 가진다. 

넓 은 련결 이 나 병 렬련결은 여 러 bit 선로들을 가지 며 자료와 조종정 보의 병 렬전송을 
가능하게 한다. 련결은 두가지 박자와 기구들중의 하나 즉 동기 또는 비동기에 의해 조 
종된 다. 

동기박자화는 원천과 목적말단 ( End ) 이 갈은 대역적 인 박자로 동작한다는것을 의미한다. 

비동기 련결은 두끝이 서 로 다른 박자렬 로 련결(손 잠도록)되 도록 하는 어 떤 매 몰된 
박자부호화기 구를 사용한다. 


교환기 

교환기 는 교환망을 구성하는데 펄 요하다. 

일반적으로 교환기는 여러개의 입력 및 출력포구를 가진다. 매 입력포구는 도착한 
파케 트나 세 포들을 처 리하는 하나의 수신기 와 입 력완충기 를 가진다. 매 출력 포구는 나가 
는 자료신호를 다른 교환기나 망대면부에 접속된 통신선로로 보내는 하나의 송신기를 
가진다. 4개의 입력，4개의 출력교환기를 그림 6-3 에 보여 준다. 



그림 6- 3. 4개의 입력와 4개의 출력사이의 임의의 치환접속을 
제 공하는 4 개 포구 크로스바교환기 
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내부크로스바는 « 개 입력，«개 출력사이의 n 개 접속을 동시에 확립하는데 리 
용된 다. 매 개 교차점 을 프로그람의 조종하에 서 접 속 ( on ) 또는 비접 속 ( off ) 으로(그림 6-3 에 
서 점 으로 표식한것 과 같이) 절환될수 있 다. 

이 수자 «을 흔히 교환기의 차수라고 한다. 

여러개의 교환기들과 련결들이 선택된 위상에 따라 큰 교환망을 구성하는데 리용된다. 

망대면 부회로 (Network Interface Circuitry ) 

망대면부회로 ( NIC ) 는 호스트콤퓨터를 국부망이나 다른 망에 접속하는데 리용된다. 
그래서 일부 전문가들은 이것을 호스트대면부라고 부론다. NIC 는 호스트와 망사이의 쌍 
방향통신흐름을 처 리할수 있 어 야 한다. 따라서 NIC 의 구조는 망과 호스트에 의 존한다. 
서로 다른 호스트들은 갈은 망에 접속되여 있을 때조차도 서로 다른 대면부기판을 요구 
할수 있다. 

전형적 인 NIC 는 내장된 처리기와 약간의 입력 및 출력완충기, 약간의 조종기억과 론 
리 를 포함한다. NIC 는 파케 트 또는 세 포의 형 식 화와 경 로선택，간섭 성검 사，흐름 및 오유 
의 조종 등의 기 능을 수행 한다. 

그러므로 NIC 의 가격은 포구의 크기와 기억용량, 처리능력, 조종회로에 따라 결정 
되 며 종종 경 로교환기보다 더 큰 복잡성 을 일 으킨다. 

6.1.3. 망의 특징 

여기서는 기 본적 인 망술어 들을 구별한다. 

흔히 이 술어들은 두개의 반대되는 특징들을 가진 쌍들로 나타날수 있다. 

또는 매개 특징을 전체 망설계공간의 차원으로 간주할수 있다. 


정적망 대 동적망 

접속과 조종방안에 기초하여 호상접속망을 여 러가지 종류로 분류할수 있다. 정적망은 
프로그람이 실행 되 는 동안 변화시 킬수 없는 점 대 점 (point to point ) 련결들로 구성된다. 

다시 말해 서 정 적망들은 프로쎄 스마디 들사이 의 고정 된 접 속들을 가진다. 정 적망은 
하나의 호스트콤퓨터 만이 매 개 마디 의 교환기 에 접 속되 므로 직 접 망이 라고도 불리 운다. 

한편 동적 망은 교환통로들에 의해 실현되 는데 사용자프로그람의 통신요구에 맞게 동 
적으로 구성된다. 

동적 망은 체 계모선과 크로스바교환기，다단망들을 포함하며 여 러 가지 체 계 망과 국부 
망, 지 역 망, 광대역망을 포함한다. 동적 망은 간접망으로도 불리우는데 여 러 호스트들이 
특정한 마디 의 교환기 에 접 속되 며 경 로정 하기 는 교환결정 들의 렬 에 의해 진행 된 다. 두가 
지 형태의 마디들을 다 가지 는 일부 혼합망은 프로그람의 조종하에서 정적접 속뿐아니 라 
동적접 속도 지 원 한다. 

매 체 공유망 

매 체 공유망에 서 물리 적련결(동 또는 섬 유)들은 망에 접 속된 모든 콤퓨터 들에 의하여 
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호출될수 있다. 이러한 리유로 매체공유망은 다중접근망으로도 알려 져 있다. 그러나 한 
번에 오직 하나의 요청자만이 허용된다. 

다시 말해서 대역너비는 여러 요청자들에게 공유된다. 매체공유망설계에서 가장 곤 
난한 문제는 경쟁하는 모든 요청자들에게 같은 대역너비를 배정하는것이다. 

매 체공유망은 FDDI (빛 섬 유자료대 면부)와 고속이 써네 트 (100 base - T ), 빛 섬 유통로기 술로 
실 현 할수 있 다. 따라서 교환기 는 사용되 지 않으며 매 체공유망은 흔히 대 응하는 교환망보 
다 값이 눅다. 

모든 요청자들에게 리용가능한 대역너비를 배정하는것을 대역너비관리문제라고 한다. 
망접 근규약의 선택 은 대 역너 비관리 체 계의 효률에 큰 영 향을 준다. 


교환망 

대조적 으로 교환망은 한번에 한명의 요청 자에게 매체 자원을 배정 또는 해제 하기 위 
하여 교환구조 (switching fabric ) 를 사용한다. 다시 말해 서 매 체 련결 에 로의 접 근은 한번 에 
한명이상의 사용자에게 공유되지 않는다. 

많은 매체공유망들은 비용을 증가시켜 교환설계로 전환할수 있다. 

실례 로 대부분의 이씨네트와 FDDI 고려들은 매 체를 공유하지 만 교환식 이써네트 또는 
교환식 FDDI 고리들도 가능하다. 

한편 모든 비 동기 전송방식 ( ATM ) 망들은 고유한 교환망이다. 교환망들은 흔히 회 선교 
환，파케트교환，세포교환으로 설계된다. 


회선교환망 

교환은 점대 점 통신을 하는 마디쌍들사이 또는 집체 통신을 하는 여 러 마디 들사이 
의 경 로를 정 하기 위하여 필요하다. 회 선교환에 서 원천마디 로부터 수신마디 까지 의 전 
체 (련결들과 완충기 들의 ) 경 로는 전체 전송기간에 예 약된다. 

이것은 예 약된 경 로에서의 긴 렬차에 의한 철길수송과 류사하다. 여 기서 그 어떤 다 
른 렬 차도 동시 에 같은 경 로를 공유하지 못한다. 

만일 기차가 대단히 길면 다음기차가 통과할수 있게 되기까지 긴 시간이 걸릴것이다. 


파케 트교환망 

파케트망에서 긴 통보문은 작은 파케트들의 렬로 조개진다. 

매개 파케트는 경 로정 하기정보와 유효자료토막을 포함한다. 같은 통보문의 파케트들 
은 각각 서 로 다른 경 로로 로정 을 정할수 있다. 이것은 렬 차 한대분의 전체 상품을 나누 
어 작은 화물차들로 나르는것과 비슷하다. 파케트교환은 전송전에 통보문을 파케트들로 
조개 고 모든 파케 트들이 도착한후 통보문을 다시 조립할것을 요구한다. 

파케트교환은 망자원을 더 잘 러용할수 있게 한다. 때문에 서로 다른 통보문의 많은 
파케트들이 갈은 망련결들과 완충기들을 더 효과적으로 공유할수 있다. 


세 포교환망 

파케트망에서 서로 다른 통보문의 파케트들은 길이가 다를수 있다. 
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다시 말해서 긴 파케트들의 렬에 길고 짧은 파케트들이 련재될수 있다. 긴 파케트에 뒤 
따르는 작은 파케트는 공유된 경로에서 긴 파케트가 제거될 때까지 긴 지연을 받게 된다. 

세포교환은 긴 파케트를 고정된 크기의 작은 세포들로 분할함으로써 파케트교환을 
개선 하였다. 

분할의 목적 은 그림 6 -4에 묘사된바와 같이 긴 파케 트 들에 의해 부가된 차단을 완화 
하는것 이 다. 

실천에서 긴 파케 트는 4096 B 정 도이 며 짧은 과케 트는 단지 몇바이 트이다. 세포교환망 
에서 대표적 인 세포는 56 B 이 다. 세포망에서는 고정된 전송지 연이 가능하다. 

파케 트교환망에 비한 세 포교환망의 또 다른 우점 은 가변길 이 의 파케 트들대신에 작고 
고정된 크기의 세포들을 다루는것으로 하여 세포교환기의 장치설계가 간단해 진다는데 
있 다. 



1) 가변길이파케트를 가지는 파케르1환 



u ) 작온 고정된 크기의 세포들을 가지는 세포1환 

그림 6-4. 두가지 형래의 교환망들에서 파케트와 세포들의 련재 


세포교환은 ATM 망의 도입 으로 대 중화되 였다. 

자료통보문을 많은 세 포로 조개 는것 은 대 단히 낮은 망성 능을 초래할수 있 다. 왜 냐하 
면 전송도중에 세포가 잃어 질수 있고 재전송은 흔히 허용되지 않기때문이다. 

이러한 문제들은 ATM 세포교환기와 ATM 망이 론의되는 6.5 절에서 취급한다. 

6.1.4. 망성능척도 

지연과 대역너비는 망이나 체계호상접속의 성능을 평가하는데 사용되는 두개의 기본 
적인 척도이다. 

아래 에 이 두가지 성능척도의 여 러 가지 측면을 서술한다. 

통신지 연 (Communication Latency ) 

원천마디로부터 목적 마디까지 통보문을 보내는데 요구되는 전체 시간이 다. 

이 지 연은 4개의 요소시 간들 즉 망의 량끝에서 통보문을 보내 고 받는것과 관련된 쏘 
프트웨어부가처 리，통로점유에 의한 통로지연 ( 또는 전체 통보문길이를 통보대 역너비 로 나 
는것)，정해 진 경로를 따라 경로선택들의 렬을 만드는 련이은 교환기들에서 소비된 시간 
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에 의한 경로정하기, 지연, 망에서 통신흐름경쟁에 의한 경쟁지연으로 이루어 진다. 

쏘 프트웨 어부가처리는 호스트 핵심부가 량끝에서 통보문을 처리 할 때 크게 기여한다. 
통로지연은 흔히 병목련결 또는 병목통로에 의해 결정된다. 

경 로정 하기 지연은 경 로정 하기거 러(또는 경 로길 이 나 량끝사이 의 hop 의 수)에 비 례한다. 
경쟁지연은 망에서의 통신흐름조건에 의존하므로 예견하기가 가장 힘들다. 


망지 연 (Network Latency ) 

쏘프트웨어부가처러와 경쟁지연은 다 프로그람의 동작에 의존한다. 그러므로 하드웨 
어설계 자들은 두개의 술어 즉 통로지 연과 교환지연의 합을 망지연으로 간주한다. 

이 량은 프로그람의 동작과 통신흐름조건과는 독립 인 망하드웨 어 특징 에 의 해 완전히 
결정된다. 

가벼 운 통신흐름(경 쟁 이 없는)통보문넘 기 기 망체 계 에서 망지연(보통 1썬근방)은 쏘프 
트웨어부가처 리 나 경 쟁지연보다 (1 편의 10 또는 100배 로) 훨씬 작다. 

전체 적 으로 통신지 연은 량끝에 서 핵 심 부부가처 리 와 (머 리부를 포함하는) 통보문길 이， 
통로대역너비，교환지연(또는 사용된 경로정하기알고리듬)，경로길이，망통신흐름(또는 프 
로그람동작)의 함수이다. 

지 연을 줄이기 위한 많은 노력 이 쏘프트웨 어부가처 리시간을 줄이거나 은페시키는데 
로 지향되고 있다. 

여 러가지 지 연감소나 지 연은패기술들은 이 장의 마지막에서 론의된다. 


포구당 대 역 너 비 ( Per-Port Bandwidth ) 

앞에서 이미 포구당 대역너비를 망의 임의의 포구에서 임의의 다른 포구로 단위시 
간에 전송할수 있는 최 대비트(또는 바이트)수로 정의하였다. 

실례로 IBM SP 2 고성능교환기 ( HPS ) 는 포구당 40 MB / S 의 대역너비를 가진다. 

균형망에서 모든 포구는 위상적으로 동등하다. 

다시 말하여 포구당 대역너비는 균형망안의 포구위치와 독립이다. 그렇지 않은것은 
비 균형 망이다. 

비균형망에서 포구당 대역너비는 모든 포구당 대역너비들의 최소값으로 정의한다. 

총 대 역 너 비 (Aggregate Bandwidth ) 

주어 진 망의 총 대역너비는 마디들의 한쪽 절반으로부터 다른쪽 절반으로 초당 전 
송할수 있는 최대 bit (또는 byte ) 수로 정의한다. 

실례 로 HPS 는 «개마디 (포구) 들로 이 루어 진 균형 망인데 «은 512가 웃한계 이 다. 

포구당 대역너비가 40 MB/S 일 때 512개 마디를 가진 HPS 의 총 대역너비는 
(40 x 512)/2=10.24 GB / s 로 계산된다. 

2로 나누기는 쌍방향통신흐름을 한번만 계산되 여 야 한다는 사실에 기초하고 있다. 

2등분대 역 너 비 (Bisection Bandwidth ) 

집합대역너비는 2등분대역너비 라는 위상적 인 술어에도 관계된다. 
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2 등분대 역너 비는 망을 똑같이 둘로 나누는 2등분우의 모든 선들을 지 나가는 초당 최 
대 bit ( byte ) 수로 정의한다. 

b 는 2등분을 지 나가는 련결들의 수, 씨는 련결 당 선의 수(련결 폭 또는 통로폭이라고 
부른다.)라고 하자. 

적 bxw 를 2등분폭이라고 부르는데 이것은 2등분면을 지나가는 전체 선의 수를 나타낸다. 

매 선이 r b / s 로 전송한다면 2등분대역너비는 B 낙 xwxr b / s 로 정의된다. 망을 거처 M 
byte 를 움직 이 는 시 간은 M/B 이 하이 다. 

일 반적 으로 망대역너 비는 망위상과 망크기(또는 포구수), 통로수，교환기의 차수, 망 
박자속도에 민감하다. 하드웨 어 구조는 망대역 너 비 에 만 영 향을 주며 프로그람의 동작, 통 
신흐름형태와 독립 이다. 

이 록립 성 은 망지 연에 대 해 서 도 성 립 한다. 

기계와 프로그람동작은 통신지연에 영향을 준다. 

6.2. 망의 위상구조와 속성 

기본적인 망속성들은 구조적인 련관속에서 밝혀 진다. 

망위상을 조사하기전에 망의 복잡성，통신효률, 가격을 평가하는데 자주 러용되는 파 
라메터들을 정의한다. 

6.2.1. 우 I 상구조속성과 기능속성 

호상접속망은 기본적으로 가지로 련결된 유한마디들의 방향 또는 비방향그라프로 표 
현된다. 마디는 하나의 교환기나 호스트장치일수 있다. 

가지는 련결이 나 통로로 볼수 있다. 

그라프마디의 수는 망의 크기 에 대응된다. 

마디 차수 (Node Degree ) 

마디 로 들어 오는 가지 (련결 이 나 통로)의 수를 마디차수 d 라고 한다. 

단일 방향통로의 경 우 마디안으로 들어 오는 통로의 수는 입 력차수이 며 마디 의 밖으 
로 나가는 통로의 수는 출력 차수이다. 

마디차수는 이 두 차수의 합이다. 

이것은 매 마디에 요구되는 I / O 포구들의 수와 갈으며 따라서 마디의 가격으로 된다. 
마디차수는 포함되 는 가격 을 줄이 기 위하여 가능한껏 작게 유지 하여 야 한다. 

망직 경 (Network Diameter ) 

망의 직경 D 는 임의의 두 마디사이의 최대경로길이이다. 

경로길이는 통과한 련결의 수로 젠다. 

망직경은 임의의 두 마디사이의 명백한 hop 의 최대수를 가리키며 따라서 자료망에서 
의 통신지연을 평 가하는 간단한 지 표로 된다. 


264 


차단망 (Blocking Networks) 대 비 차단망 (Nonblocking Networks) 

망에서 통보문넘기기는 차단 또는 비차단으로 설계될수 있다. 

차단망은 통보문이 여러 통보문과 충돌하는 경우 후에 전송하기 위하여 완충시킨다. 
그러므로 차단망은 완충망과 호상 바꾸어 쓸수 있다. 

비차단망은 완충기 를 사용하지 않는다. 가변적 인 경 로들이 통보문충돌을 해 소하는데 
사용된다. 대부분의 차단망들은 통보문의 경로를 정하기 위하여 교환기를 리용한다. 


동기 망 (Synchronous Networks) 대 비 동기 망 (Asynchronous Networks) 

동기망에서 송신기와 수신기는 시공간적으로 동기화되여 야 한다. 

이것은 호출자와 응답자사이의 동기화를 요구하는 전화망과 류사하다. 대부분의 동 
기망들은 완충기를 리용하며 따라서 차단망이 다. 비동기망은 완충기를 사용하지 않으며 
본질에 있어서 비차단망이 다. 

비동기망에서는 송신기와 수신기의 동기가 필요 없다. 이것은 우편배달망과 비슷하다. 
일부 통신망들은 동기 및 비동기통신을 다 지원하도록 설계되고 있다. 

기 능성 과 복잡성 (Functionality and Complexity) 

기능성은 파케트경로정 하기，새 치기처 리，고속동기, 통보문결 합，자료일관성，교환기 
충돌，통로충돌，흐름조종, 고장허용，잃어 버린 파케트처 리，자료미 리꺼 내기, 지 연허용， 
대 역너 비 관리 등을 지 원하기 위하여 망에 설 치된 특수한 특징들 또는 기구들이다. 

복잡성은 망구성 비용에 영향을 준다. 복잡성은 흔히 망구성 에 요구되는 포구，케블，교 
환기，완충기, 접속기, 중계기들과 대면부론리에 의하여 결정된다. 

조종회 로，완충기억기，전원공급도 망복잡성의 부분이 다. 

균형성과 확대가능성 

망의 임의의 마디로부터 위상이 같게 보이면 그 망을 균형이라고 하고 그렇지 않으 
면 비 균형 이 라고 부론다. 

균형 망들은 VLSI (초대 규모집 적 회 로)회 로나 PC 기 판우에 배 치 하기 가 쉽 다. 균형 통신 
망에 서 는 또한 통보문경 로정 하기 도 쉽다. 

망의 확대가능성은 망의 모둘적인 확대가능성 이다. 

확대 는 예견된 성능에 비 례되게 증가시켜 야 한다. 망의 확대 가능성 은 마디차수와 직경, 
균형성，2등분대 역너 비，복잡성과 같은 위상적인 속성들뿐아니 라 묶기와 전원분산, 랭각，프 
로그람식조종，통신흐름관리 등과 같은 물리적인 위상 및 관리요소들에 의해 제약된다. 

6. 2. 2. 경로정하기방법과 기능 

여 기서 는 교환망의 여 러 가지 파케 트경 로정 하기 방법 들을 소개 한다. 

축적 전진방법 은 1세 대 통보문넘 기 기 다중콤퓨터 에 서 사용되 였 다. 

Cut-through 또는 wormhole 경 로정 하기 방법 은 오늘 더 많은 다중름퓨터 또는 클라스 
터체계들에서 실현되고 있다. 
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축적전진경로정 하기 (Store - and - Forward Routing) 

전체 파케 트는 나가는 련결로 전진하기전에 마디안의 파케 트완충기 에 기 억되 여 야 한 
다. 그러므로 련속적인 파케트들은 시간상에서 겹치지 않고 련속적으로 전송된다. 

그림 6-5 자)에서는 마디 1로부터 두개의 중간마디(마디 2와 마디 3) 를 거 쳐 4개의 
세포로 된 파케트를 마디 4로 전송하는 과정을 보여 준다. 

매 개 파케 트는 4개의 세 포로 구성된다. 

머 리 부는 ft 로 표시 하고 3개 의 자료세 포는 a , b , c 로 표시 한다. 

머 리부는 경 로를 정 하는데 러 용된다. 매 개 마디는 파케트를 다음마디 로 보내는데 4 
개 시간단위(파케트의 길이와 같다.)를 소비한다. 

따라서 정해 진 경로에서 자원충돌이나 교착현상이 없으면 N 1 로부터 N 4 로 파케트를 
보내 는데 16개 의 시 간단위 가 걸린 다. 망이 혼잡되 면 경 로정 하기 시 간이 더 길수도 있 다. 
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그림 6-5. 파케 트교환망에 서 축적 전진경 로정 하기 와 cut-through 경 로정 하기 
(h : 머리부, a , b , c: 자료요소) 


Cut — Through 경 로정 하기 

매개 마디는 한번에 하나의 flit , 하나의 세포를 가지는 flit 완충기를 사용한다. 
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일단 머 리부가 해득되면 flit 는 나가는 련결로 자동적으로 전진한다. 같은 파케트의 
모든 자료 flit 들은 머 리부가 통과하는 같은 경로를 통과한다. 그러므로 매 개 마디는 파케 
트를 단위시 간당 한 flit 씩 경 로로 전진시 킨다. 

련속적 인 파케트들은 관흐름형태로 전진한다. 

그림 6-5 니의 마디 4가 4개의 flit 로 된 전체 파케트를 수신하는데 7개의 시간단위 
밖에 걸 리 지 않지 만 축적 전진경 로정 하기 에 서 는 필요한 16개 의 시 간단위 가 필요하다. 

L 을 파케 트길 이，자을 원천지에 서 목적지 까지 의 마디들의 수라고 할 때 일 반적 으로 
축적전진방법에서는 NXL 시간단위가 걸러며 한편 wormhole 경로정하기에 서는 N _1 개의 
hop 들로 된 경 로를 통과하는데 L + N -1 개 시 간단위 만 걸린 다. 

속도중가는 NL / L + N -1 로 기대된다. 

충분히 긴 파케트에 대하여 wormhole 경로정하기의 속도증가한계는 일반적인 경로정 
하기 방법 보다 N 배 더 빠르다. 

wormhole 경로기는 선택된 경로의 망자원(련결, 교환기. 망대면부)들을 사용하여 전송 
관흐름과 같이 련속적인 파케트들의 전송을 중첩시킨다(그림 6-5). 

파케 트는 복사와 기 억지연이 없는 중간마디 를 무시한다. 

wormhole 경 로정 하기는 접속지 연을 축적전진방법의 500化로부터 상업교환기설계의 20 
썬로 줄인다. 

자료경 토정 하기 기 능 

자료망은 마디호상간의 자료통신에 리 용된 다. 

아래 에 경 로정 하기망에 서 실 현되 고 있는 요소적인 자료경 로정 하기기 능들을 서 술 
한다. 

자료경 로정 하기기능에 는 밀기, 회 전，치 환 (1 대 1)，방송 (1 대 전체), 집 단내 방송대 n ), 
개 인통신 (1 대 n ), 혼합，교환 ( exchange ) 등이 있다. 


치 환 (Permutations) 

«개의 대상들에 대하여 n ! 개의 치환이 가능하다. 모든 치환들의 모임은 구성 
( composition ) 연산의 견지 에 서 치 환군을 형 성 한다. 

치 환을 표시하는데 군론의 묶음표기 법 을 사용할수 있 다. 

실례로 치환 7 T = ( a , b , c ){ d , 幻는 쌍대넘기기 즉 a 」> b , b 」> c , c ^ a , 

를 의 미한다. 

묶음 { a , b , 더는 주기 ( Period ) 3을 가지며 묶음 ( d , 句는 주기 2를 가진 다. 

이 두 주기를 결합하면 치환은 모두 2X3=6 개의 주기를 가진다. 

만일 6개 의 항목에 치 환을 적 용하면 항등넘 기 기 / = (切,(切 ,( c ), ⑷， ( e ) 가 얻 어 진다. 
임 의의 치 환형 태를 실현하는데 크로스바교환기 를 리용할수 있다. 다단망은 망을 통 
하여 하나 또는 여러개의 통로들에서 일부 치환들을 실현할수 있다. 

치 환들은 또한 밀 기 또는 방송연산들에 의해 실 현될수 있 다. 

„이 클 때 치환속도는 자료경로정하기망의 기본적인 성능을 결정하게 된다. 
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완전혼합 (Perfect shuffle) 

완전혼합은 병 렬처 리를 응용하기 위하여 Harold Stone 이 제기한 특수한 치환기능이 다. 
완전혼합넘기기를 그림 6-6 에 보여 준다. 


00 0 - ►000 

001^^001 
0 1 0\7公 0 1 0 

01 1 nX »01 1 
1 oo 

1 0 1，)玄 1 0 1 
1 1 0 기 4 1 1 0 


000- ►OOO =0 

00 1 \^ r 00 1 = 1 

0 1 »0 1 0 =2 
01 1 1 = 3 

100 ，、 > 쓴 100 =4 

1 0 1 1 01 =5 

1 1 0 7 1 0 =6 


1) 導혼'， l ) ，«된 완전혼합 

그림 6-6. 8개의 대상에 대한 완전혼합과 거물넘기기 


«개 의 카드(대 상)의 혼합은 추기 에 의해 고르롭게 진행 된다. ic 비 트의 2진수 
n = 2 fc 개의 카드를 가진 트럼프의 매 카드를 표시할수 있다. 완 
전혼합은 카드 x 를 y 로 넘 긴다. 

여기서 y = ( 자- 2 ,…,꿋卜사,자니)는 义를 왼쪽으로 lbit 밀고 가장 낮은 자리로 겹 
쳐 넣음으로써 얻어 진다. 

이것 은 완전혼합을 생성하는 2진방법 이 다. 


010 


000 


11C 




011 


I ， 1 

001 


- 1) 2진 에서 작성된 8개마디를 가지는 2진립방체 

I 010 N-M~oii I I inn H — _T 

1.) 변환비트 c 0 에 의한 경로정하기 


I 。 유。 I p)Qi I I n; n I f oil I I i^o I I ioi I n 균 ! Mil I 

t ) 변환비트 에 의 한 경 로정 하기 

1 0 우 0 1 1 00^1 I Q|Q I Hnnl Pj^TI HtTI 

h ) 변환비트 C 7 2 에 의 한 경로정하기 
그림 6-7. 2진립방체에서 3개의 경로정하기기능 
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하이 퍼 립 방체 경 로정 하기 기 능 (Hypercube Routing Funcion) 

그림 6-7 자)에 3차원 2진립 방체를 보여 준다. 

3개의 경 로정 하기 기능은 마디 주소의 3개 bit 에 의해 정의된다. 

실례 로 그림 6-7 니와 같이 가장 낮은 bit 인 C 0 이 서 로 다른 린접한 마디들사이 에 
자료를 교환할수 있다. 

이와 비슷하게 다른 두개의 경로정하기형래는 중간 bit 인 Ci (그림 6-7 n ) 과 가장 
높은 bit 인 C (그림 6-7 근)를 각각 검사함으로써 얻을수 있다. 


방송파 집 단내 방송 (Broadcast and Multicast) 

방송은 1대 전체 넘기기 이다. 

이것은 방송모선을 사용하는 SIMD 콤퓨터에서 쉽게 실현할수 있다. 

통보문넘 기 기 다중콤퓨터 는 방송통보문들에 집 단내 방송기 구를 사용한다. 

집 단내 방송은 마디들의 한 부분모임으로부터 다른 부분모임에로의 넘기기知대 «) 에 
대 응한다. 

개 인방송은 선택 된 수신자들에 게 만 개 인통보문을 보낸 다. 

방송은 다중콤퓨터 에 서 흔히 대 역연산으로 취 급된 다. 

6. 2. 3. 망위상구조 

정적망들은 일단 접속되면 고정되는 점대점련결들을 사용한다. 이 형태의 망은 흔히 
매체를 공유하며 예측가능한 통신흐름형태들에 더 적합하다. 

이 러한 위 상들은 또한 교환망을 구성 하는메 도 적용될 수 있 다. 

선형 배 렬 (Linear Array) 

이 것은 "개 마디 들이 "개 련결로 접 속되 여 단일한 폭포모양 ( cascade ) 을 형성하는 가 
장 간단한 망이다(그림 6-8 I ). 

중간마디들은 차수가 2이다. 

직 경 은 쎄 이 다. 2등분 폭 는 1 이 다. 

구조는 균형이 아니며 "이 매우 클 때 통신효률이 문제로 된다. 사=2인 작은 경우는 
선형배 렬을 실현하는것 이 경제적 이 다. 

"이 증가함에 따라 다른 위상이 더 좋을수 있다. 

선형배 렬은 련결된 많은 마디 들이 교환을 통하여 시 간공유하는 모선과 크게 차이난 
다는데 주의하여 야 한다. 

선형배 럴은 서 로 다른 사용자들이 폭포의 서 로 다른 부분들(련결들)을 동시 에 사용 
할수 있도록 한다. 

고리 (Ring) 

고리는 선형배렬의 두개의 끝마디를 하나의 보충련결로 접속하여 단긴 고리를 형성 
하게 함으로써 얻어 진다(그림 6-8 L ). 
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고리는 단방향 또는 쌍방향일수 있다. 

고리 는 일정한 마디차수 2를 가지 므로 균형 적 이다. 

쌍방향고리의 직경은 AT /2 이며 단방향고리의 직경은 iV -1 이다. IBM 통표고리는 이 위 
상을 가지는데 통보문은 자기의 통표와 정 합되는 목적지 에 도착할 때까지 고리를 따라 
돈다. 

화음고리 (Chordal Ring ) 

마디의 차수를 2에서 3 또는 4로 증가시켜 각각 그림 6-8 이와 그림 6-8 근)에 제시 
한 두개의 화음고리를 얻을수 있다. 일반적으로 마디의 차수가 더 높아 지면 더 많은 가 
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지들이 첨가되며 망의 직경은 더 짧아 진다. 더 높은 마디차수를 가지는 화음망의 실현 
은 더 많은 련결들을 요구한다. 이 두개의 화음고리 를 16개 마디를 가지는 고리와 비 교해 
보면 망직경 이 각각 8에서 5로，8에서 3으로 떨어 짐을 알수 있다. 

극단적으로 그림 6-8 이의 완전련결망은 가능한 가장 짧은 직경 1을 가지는 반면 
에 가장 높은 마디차수 N — 1을 가진다. 마디차수와 망직경사이의 절충은 주어 진 호상 
접속망의 확대가능성과 고장허용뿐아니라 가격 대 성능비에도 영향을 준다. 


Barrel Shifter 

그림 6-8 미에 제시 한 barrel shifter 는 고리의 매 마디 로부터 2 hop 의 정수제곱만한 
거리에 떨어 져 있는 마디들에로 련결들을 첨가하여 얻는다. 

이것은 어떤 1, 2, •••, n _ l 에 대 하여 | j~i | =2 f 이 면 마디 i 는 마디 에 련결되며 
망크기는 임을 말해 준다. 

이 barrel shifter 의 마디 차수 d 는 2 n-l 이 며 직 경 D 는 n /2 이 다. 

명백 히 barrel shifter 의 접속성은 더 낮은 마디 차수를 가지는 임의의 화음고리보다 더 
높 다. 

尺=16일 때 마디차수는 7이고 직경은 2이 다. 

제 시된 모든 위상들은 망크기 가 좀 작을 때 에만 리용되 는 완전련결망보다 더 낮은 
복잡성을 가진다. 

나무 (Tree) 

7개 의 마디 로 된 높이 가 3인 2진나무를 그림 6-9 자 )에 제 시한다. 2진나무의 마디 
차수는 3이다. 높이가 오인 2진나무는 사=公-1개의 마디를 가전다. 2진나무는 매 마디가 
두개 이상의 나가는 가지 를 가지 는 다진 나무로 확장할수 있다. 일 반적 으로 m 진 나무는 
八 t m *- l 개 의 마디 를 가진 다. 잎 이 아닌 매 마디(부모마디 )는 m 개 까지 의 새 끼마디 들을 
가질수 있다. 


별 (star) 

별(그림 6-9 L ) 은 높이 가 2이고 가장 높은 마디 차수가 iV -1 이며 가장 작은 직경 이 2 
인 다진나무이다. 

나무 또는 별 형망을 리용하는데 서 한가지 문제 는 나무의 뿌리 나 별 형 망의 중심마디 
에서의 병목효과이다. 잎마디들이 다른 마디들과 통신할 때 통신흐름은 뿌리나 중심마디 
에서 더 무겁다. 


그물 (Mesh) 

2차원 3 x 3 그물망을 그림 6-9 이에서 보여 준다. 

이것은 Goodyear MPP 와 Intel Paragon 파 같은 이전의 여러 체계들에서 실현된 대중적 
인 구조이 다. 일 반적 으로 매 개 차원에 n 개의 마디 를 가지 는 k 차원그물에서 내부의 마디 
차수는 2 k 이 며 망직 경 은 切가-1)이 다. 그물은 경 계마디 들이 내 부마디 들과 차이 나기 때 문에 
균형 망이 아니 라는데 주의하여 야 한다. 
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Illiac 그물 

그림 6-9 근)에 그물의 변종인 Illiac 그물을 제시한다. 이 그림은 Illiac 망의 축소판이 
다. 본래의 Illiac 망은 마디차수가 4 이고 직경 이 7인 8 x 8 그물이 였다. 

일반적으로 wxn Illiac 그물은 직경 이 «_1 인데 이것은 2 차원그물의 절반밖에 안된다. 
그림 6-9 ᄅ)의 Illiac 그물은 위상적으로 그림 6-8 H) 의 차수가 4 인 화음고리와 동등하다. 


고리면 

2 차원고러면을 그림 6~9 u) 에 제 시한다. 




1) 2진나무 L) 별 


c ) 24원그를 



e) Illiac 그불 미 2 차■원고빼€ 비 심장수축때렬 

그림 6-9. 망구성 을 위 한 6 개의 보충적 인 위상들 


이 구조는 접속들을 보충하여 그물로부터 확장된다. 고러면의 직경은 그물직 경의 절 
반이 다. 

또한 이 위 상은 고리 와 그물의 우점 을 결 합하고 있 다고 볼수 있다. 그물이 나 고리 면 
은 다 더 높은 차원으로 확장할수 있다. 실례로 Gray Research Inc 는 자기의 T3D/T 犯계렬 
에서 3 차원고리면망을 실현하고 있다. 

고리면은 균형적 인 위상이므로 그물은 아니 다. 보충된 모든 접속들은 고리면의 직경 
을 줄이고 균형 성 을 보존하도록 한다. 


심장수축배렬 (Systolic Array) 

이것은 일정한 자료흐름알고리 듬들을 VLISI 로 실현하기 위하여 설계된 응용지향배렬 
구조들중의 특정한 종류이 다. 

그림 6-9 비에서 보여 주는것은 행렬 대 행렬곱하기를 위하여 특별히 설계된 심 
장수축배렬이 다. 정적 인 심장수축배 렬들은 자료스트림들의 다방향흐름과 함께 관흐름 
된 다. 

구조는 일단 주어 진 응용에 최 량화되면 다른 알고리듬을 효과적으로 실현할수 없다. 
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굵은 나무 (Fat Tree) 

나무구조의 뿌리 에 서 병 목현상을 완화하기 위하여 Leiseson 은 1985년에 다진 굵은 나 
무를 도입하였 다. 

굵은 나무에서 부모마디와 자식마디사이의 련결의 수는 잎마디로부터 뿌리로 가면서 
증가한다. 

굵은 나무는 뿌리 로 가면서 가지 가 더 두터워 지는 자연계의 나무와 비슷하다. 굵은 
나무구조는 Connection Machine CM 5 체계에서 실현되였다. CM 5 의 자료망구축에는 4진굵 
은 나무가 적 합하였다. 

CM 5 에 구속된 굵은 나무는 그림 6-10 의 내 부마디련결 이 보여 주는바와 같이 4개 의 
자식마디 와 2 또는 4개 의 부모마디 를 가진다. 



그림 6-10. CM5 에서 실현된 4 진굵은나무 


하이 퍼 립 방체 (Hypercube) 

형 식 적으로 하이퍼 립 방체 를 2진«차원립 방체 라고 부론다. 

2진이라는것은 립방체의 매 차원(변)이 두개의 마디를 가진다는것이다. 여기서 n 을 
하이퍼 립 방체 의 차원수라고 부론다. 일 반적 으로 «차원 립 방체 는 «개 차원들을 따라 놓여 
있는 iV = 2" 개의 마디들로 구성된다. 

8개마디 로 된 3차원 립 방체 는 그림 6-11 가 )와 같다. 

4차원립방체는 그림 6-11 L ) 에서 보여 주는바와 같이 2개의 3차원립방체의 대응하 
는 마디 들을 호상접 속함으로써 만들어 진다. ra 차원 립 방체 의 마디차수는 w 이 며 망직 경 이 
다. 

사실상 마디차수는 차원수에 따라 선형 으로 증가하며 하이 퍼 립 방체 구조의 크기확대 
를 곤난하게 한다. 

2진립방체는 1980년대에 연구개발된것으로서 매우 대중화된 구조이다. Intel : PSC / l , : 
PSC /2, nCUBE , Connection Machine 의 CM 2 기 계 들은 하이 퍼 립 방체 구조로 만들어 졌 다. 구 
조는 빽 맥한 접 속들을 가진다. 2진나무들，그물들, 다른 많은 저차원위 상들은 하이 퍼 립 방 
체에 매몰될수 있다. 

고차원 립 방체 를 묶는데 서 의 약한 확대 가능성 과 곤난성 으로 하여 하이 퍼 립 방체 구조는 
점 차 저 차원구조로 교체되 였 다. 실례 로 Connection Machine CM 5 는 CM 2 에서 실현된 하이 
퍼 립 방체 대신에 굵은 나무를 선택한다. 


273 












必히 




~^( 나 나 


L) 2 44*1 ■원험■방체 



te) 3-CCC 

그림 6-11. 2 진하이 퍼 립 방체 와 립 방체 접 속순환 (CCC) 


Intel Paragon 은 하이 퍼 립 방체 적 인 먼저 것 대 신에 2차원그물을 선택 한다. 러 상적 인 동 
등성은 여러 망구조속에서 실현된다. 

구조가 계 속 존재 하기 위한 길은 중요하게 묶기 와 효률，확대 가능성，성 능에 서 의 가 
격 대 성능절충에 있다. 

Wormhole 경로정하기와 관흐름망운영으로 하여 정규적 인 위상선택 이 전보다 그리 중 
요치 않게 된다. 

다시 말하여 구조적인 위상은 호상접속망의 성능을 결정하는데서 그러 예민하지 않거나 
그러 중요하지 않게 된다. 우위를 차지하는것은 매체와 교환기술이다. 


립방체 접 속순환 (Cube-Connected Cycles) 

이 구조는 하이퍼립방체로부터 변경된다. 그림 6-11 :)에서 보여 주는바와 같이 3 
차원립방체는 립방체 접속순환 (3-CCCs) 에로 변경된다. 

방법 은 3차원 립 방체 의 매 구석마디 를 절 단하고 3개 의 마디 로 된 하나의 순환으로 교 
체 하는것 이 다. 

일 반적 으로 «=公개 의 순환마디 를 가지 는 오차원 립 방체 로부터 it 차원 립 방체접 속순환을 
만들수 있다. 방법은 A: 차원하이퍼립방체의 매 정점을 fc 개의 마디로 된 순환으로 교체하 
는것 이 다. 

따라서 A: 차원립 방체는 切公마디를 가지는 it 차원 CCC 로 절환될수 있다. 그림 6-11 근) 에 
서 보여 준 3차원 CCC 는 직경이 6으로써 본래 3차원립방체의 두배이다. 

일 반적 으로 A： 차원 CCC 의 망직 경 은 2k 이 다. 하이 퍼 립 방체 에 비한 CCC 의 우점 은 고 
정된 마디차수 3에 있는데 이것은 바탕으로 되는 하이퍼 립 방체의 차원과 독립 이 다. 

실례 로 64마디 CCC 는 4차원립 방체 의 구석마디 들을 4개 마디 로 된 순환들로 교체 함 
으로써 형성되는데 n=6 이고 인 경우에 대응한다. CCC 는 직경 2느8을 가진다. 

그러 나 CCC 는 6차원 립 방체 의 마디차수 6보다 작은 마디차수 3을 가진다. 
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이런 면에서 CCC 는 만일 어떤 방법으로 지연이 허용된다면 확대가능한 체계를 구 
성하기 위한 더 좋은 구조로 된다. 



그림 6-12. 4-ary 3 차원립 방체 망(은폐 된 부분은 보여 주지 않는다.) 

及 -ary 차원립방체망들 

고려 와 그물, 고러 면들，2진 n 차원 립 방체 (하이 퍼 립 방체)，오메 가 ( Omega ) 망들은 모두 k _ 
ary «차원 립 방체 망계 통과 위 상적 으로 같은 모양이 다. 그림 6_12에 서 매 차원 에 쇼 = 4개 
마디 를 가지 는 4 -ary 3차원 립 방체 망을 보여 준다. 

명 백성 을 위해서 숨은 마디 들과 숨은 련결들은 보여 주지 않는다. 이 망에는 
N = k n (Ji = n 4 N ,n = \ og k N)A 마디가 있 다. ᅡ ary n 차원 립방체의 마디는 «개 수자들의 
렬 보 = « 0 «广내„로 식별할수 있다. 

여기서 a , 는 i 번째 차원에서 마디의 위치를 나타낸다. 

일반적으로 저차원 차원립방체들은 n =2 또는 n =3 인 고리면으로 불리운다. 

고차원 2진 «차원 립 방체 들을 하이퍼 립 방체 라고 부론다. 

굵은 나무와 k-ary n 차원 립 방체 망은 다른 망들을 모형 화하는데 서 만능적 이 다. 

Dally 는 k-ary «차원 립 방체 망의 일 부 흥미 있 는 속성 들을 밝혀 냈 다. 대 부분의 망 
들의 가격은 요구되는 교환기들의 수보다는 선의 량에 따라 결정된다. 만일 고정된 선으로 
제 한하면 더 넓 은 통로를 가지 는 저차원망들은 좁은 통로를 가지 는 고차원망들보다 낮은 
지 연과 적은 충돌，더 높은 처 리 량을 제공한다. 

망위상들에 대한 개괄 

표 6-1 에 망위상들의 중요한 특징들을 개괄한다. 

마디차수가 4 또는 그이하의 망들이 보다 합려적 이 다. 

실례로 INMOS Transprinter 소편은 2차원그물구조에 4개의 통로에 접속되는 4개의 
포구를 가진 극소형처 리기 이다. 

완전접 속망들과 별형망들은 다 높은 마디차수에는 대 단히 나쁘다. 하이퍼 립 방체 의 
마디차수는 log 2 N 으로 증가하는데 자이 대 단히 크게 되면 역시 나쁘다. 
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표 6-1 _ 정적접속망들의 위상적속성 


망형 래 

마디 

차수여) 

망직경 

(D) 

련결수 

(1) 

2 등분 

폭 (B) 

균형 성 

망크기 

선형 

배렬 

2 

N-1 

N-1 

1 

아니 

"개 마 디 

고리 

2 

N/2 

N 

2 

예 

TV 개 마디 

완전 

접속 

N-1 

1 

N(N- 

1)/2 

(N/2) 2 

예 

"개 마디 

2 진 

나무 

3 

2(/rl) 

N-1 

1 

아니 

나무높이 

h=[\og 2 N] 

별 

N-1 

2 

N-1 

Nil 

아니 

"개 마디 

2 차원 

그물 

4 

2( 厂 1) 

2N~2t 

R 

아니 

rXr 그물 
(r= yfN ) 

일 리 아크 

그물 

4 

r-1 

IN 

2r 

아니 

(r= y [ N ) 인 
화음고리 

1 차원 

고리 면 

4 

2[r/2] 

IN 

2r 

예 

(r= Vat ) 인 
，Xr 고러 면 

하 이 퍼 립 

방 체 

N 

N 

nN/2 

N/2 

예 

八， =2" 개 

마디 

CCC 

3 

2k- 

l + [k/2] 

3N/3 

N/(2k) 

예 

모 23인 순환 

을 가지는 
N=k2kA 마디 

« 차원 

립방체 

In 

N[k/2] 

nN 

2k n ^ 1 

예 

A 바”개 마디 


관흐름식 wormhole 경 로정 하기 에 의 해 망직 경 은 전보다 그리 위 험 하지 않다. 왜 냐하면 
임의의 두 마디사이의 하드웨 어지 연은 경로길이와 거의 독립 이기때 문이 다. 

사용된 련결의 수는 망가격에 최대의 영향을 준다. 2등분폭과 통로폭은 망의 대역너 
비 를 결 정 한다. 

망의 균형 성 은 확대 가능성 과 경 로정 하기 의 효률을 높이 기 위하여 필 요하다. 

6. 3. 모선과 크로스바 및 다단교환기 

동적 접속은 여 러 통신경로들의 교차점에 전자교환기, 경로기, 집중기 ( concentrator ), 분 
배 기 ( distributor ), 중계 기 ( arbitrator ) 들을 배 치 함으로써 실 현된 다. 

동적 접 속의 3가지 요소는 모선과 크로스바교환기，다단교환기 들이 다. 

그림 6-1에서 본바와 같이 호상접속들은 현재 200 Mbps 와 lOOGbps 사이의 자료전송 
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속도(대역너비)를 가진다. 


6. 3. 1. 다중처리기모선 

모선은 본질에 있어서 처리기와 기억모둘，주변장치들사이 자료처리를 위한 선과 접 
속기 ( connector ) 들의 집 합체 이 다. 체 계 모선은 처 리 기 와 같은 주장치 와 기 억 기 판 (memory 
board ) 과 같은 종속장치사이의 자료전송에 사용된다. 모선중계론려는 한번에 하나의 요구 
에 대 한 모선호출을 허 용하며 따라서 충돌모선 이라는 이 름을 허 용한다. 

PCI 와 VME , Multibus , MicroChannel , TF . FF , Futurebus 와 같은 많은 표준모선들이 확립 
되였다. 

대부분의 표준모선들은 단일처 러기체계를 구성할 때 가장 낮은 가격을 제공한다. 

우리 는 대 규모 SMP 와 NUMA , DSM 기 계 를 만들기 위한 다중처 리 기 모선과 계 층모선들 
에 초점 을 둔다. 

이러한 확대가능모선들은 흔히 캐쉬일관성, 고속극소형처러기동기화，분산작용들의 
새 치 기 처 리 등을 지 원 하는 하드웨 어 로 장비 된 다. 

그림 6-13 에 전형 적 인 다중처 리 기모선체 계 의 구조를 보여 준다. 체 계모선은 흔히 
뒤 판이 나 중심 판에 실현된 다. 

매 처 리기 ( P ) 또는 매 I / O 처리기 ( IOP ) 는 특별한 종속장치(기 억기나 디스크구동기 등) 
에 대 한 접 근요구를 생 성하는 지 배 요소이 다. 

체 계모선은 자료경 로, 주소선들, 조종선들로 구성 되 며 모든 끼 움식 기 능기 판들의 통신 
을 위한 공동매체를 제공한다. 



그림 6-13. 체계모선과 기억기모선, 여러가지 기능기판의 
국부모선들로 이루어 지는 다중처 리기모선 



























특정화된 대면부론리 ( IF ) 와 특수한 기능의 조종기들 ( C ) 은 서로 다른 끼음식기판에 사 
용된 다. 

국부모선들은 CPU 나 I/O, 망대 면부기판들에 있 다. 기 억 기 기판의 국부모선을 특별 하 
게 기 억기모선이 라고 부론다. 전형 적 인 I/O 모선에는 SCSI 또는 국부디 스크와 인쇄 기，다 
른 호스트기계들에 설치된 주변장치들을 련결하는 I/O 통로들이 있다. 

다중처 리기모선체 계를 설계 하는데서 중요한 문제 에는 모선중계，새 치기처리，규약변 
환，모선다리, 계층모선확장 등이 있다. 

종종 snoopy 규약들이 5.2.2 에서 론의 한것 과 같은 다중처 리 기모선에 설 치 된다. 

아래 에 서 대 중적 인 SMP 봉사에 서 개 발된 체 계 모선들중 Sun Microsystems Gigaplane 모 
선과 SGI POWER path -2 모선을 고찰한다. 


실례 6.1. Sun Microsystems 2.5 Gbps Gigaphne 모선 호상접 속 



그림 6-14 에서 보여 주는바와 같이 Sun 의 Ultra Enterprise Server ( SunFire ) 는 CPU / 기 
억기기판들과 Sbus FO 기 판들을 호상접속하기 위하여 Gigaplane 이 라는 새 로운 체 계모선을 
사용하였다. 그것은 2.5 GB/S 의 최대대 역너 비를 보장하며 많은 봉사기들에서 사용되는 
Sun 의 XDBUS 보다 6배 빠르다. 

Gigaplane 모선의 자료경 로는 2 TB 의 공유기 억 을 주소화하기 위 한 42 bit 주소선을 가지 
는 256 bit 파케트교환으로 설계된다. 

모선박자속도는 83.4 MHz 이다. 

2개 의 모선주기 마다 전용된 64 B 의 캐쉬행 을 가질 때 전체 폭발적 인 자료전송속도는 
2.6 GB/S 이 다. 

처리기들과 기억기，: I/O 모선들은 직접 Gigaplane 에 접속하며 매개 기판은 Gigaplane 
을 개 별적 인 단들로 전개 하기 위 하여 UPA(Ultra port architecture ) 호상접 속을 사용한다. 
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실례 6.2. Silicon Graphic POWERpath-2 TM Bus 

이것은 1.2GB/S 의 최대기억기대 역너비를 가진 256bit 동기 모선이 다. 36 개까지의 
MIPS®R1000® 처리기들과 16GB 의 기억기，그라픽스, 6 개의 I/O 모선들을 그림 6_15 에서 제 
시한 POWER path-2 모선에 접속할수 있다. 


2-36 R 10000 CPUs 

띠 


Graphks 


6개 I八) 모선 


Viz Console 대면부 (150MB/s) | 


HIO 확장홈 (150MB/s) 


HIO 확장홈 (150MB/S) 

320MB/S 

이써네르 (1 MB/s) 


VME 64(50MB/s) 


2 SCSI-2( 통로당 5-20 MB/s) 1 



그림 6-15. Silicon Graphic Server 의 POWERpath-2™ 모선구조 


체 계모선은 분산작용규약을 사용한다. 매 CPU 기 판에 4 개의 R1000 이 설 치 된다. 

I/O 기판당 320MB/S 를 가지는 I/O 부분체계는 500MB/S 까지의 자료전송속도를 엄을 
수 있 다. 고성 능그라픽 스는 초고속콤퓨터응용들에 서 시 각화를 지 원한다. 

많은 전용다중처 리 기 모선들이 IBM 대 형 콤퓨터 들과 Digital 및 Hewlett-Packard 다중처 리 
기봉사기들에 설치되였다. 

TFFF, 역시 다중처 리기 를 위한 VME 모선 (IEEE 표준 1014-1987), Multibus II (IEEE 표준 
1296-1987), Futurebus(IEEE 표준 896, 1-1991) 을 개 발하였다. 

전기 적 및 기 계 적, 기 능적규약들에 대 한 서 술을 위하여 공개된 표준모선들을 참고해 
도 된다. 


계층모선 (Hierarchical Buses) 

단일 SMP 모선은 큰 규모의 체 계 들에 적 응시키 는데서 제 한된 확대 가능성 을 가진다. 
계층모선구조는 이 문제를 어느 정도로 해소할수 있다. 

그림 6-16 은 여 러개의 다중처 리 기콜라스터들을 호상접속하여 CC-NUMA 기 계를 만 
들기 위해 설계된 개념적인 모선계층도이다. 


I 기ᅮ기 ■ I 기ᅮ기 I 


를라스허 내 부모선 


I I I (jc I 


「 P ᄀ rpi ipi iPi 

를라스터 1 를라스터 2 • • • 


■ 기” 기 I 


I rr I 


최캐 

S … S 처 


캐쉬들 

다스터 포선 


캐쉬들 
리기들 


그림 6-16. 다중처 리기클라스터 들을 접 속하여 CC-NUMA 기계를 
만들기 위한 모선 계 층도 
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갈은 (SMP 봉사기와 같은) 클라스터 에 속하는 모든 처 리기들은 공동콜라스터모선에 
련결한다. 콜라스터캐쉬 (CC) 는 같은 클라스터의 모든 처리기들이 공유할수 있는 2 차캐 
쉬로 사용될수 있다. 다중처 리기클라스터 들은 대 역적 으로 공유된 모든 기 억기모둘들을 
접속하는 콜라스터호상모선을 통하여 서로 통신한다. 

여 러 수준의 모선들은 모든 전용 및 공유캐쉬 들사이 의 캐쉬일관성 을 유지 하고 콜라 
스터 들사이 를 대 면시 키 기 위한 다리 기 구를 갖추어 야 한다. 

IEEE Futurebus 는 계 층적 인 모선체 계 를 만들기 위 하여 특수한 다리 들과 캐 쉬 및 기 
억기 agent 들，통보문대면부들，캐블토막들을 개발하였다. 

모선호상접속의 부족점 

모선호상접속은 많은 처리기들이 모선을 시간공유하도록 한다. 모선대역너비가 높을 
때에도 처리기당 대역너비는 전체 대역너비의 한 부분에 불과하다. 더우기 모선여유가 
없기 때 문에 실패 하기 쉽다. 

모선은 또한 제한된 확대가능성을 가진다. 

이러한 부족점들은 기본적으로 묶기기술과 비용에 의하여 제약된다. 

모선틀은 흔히 작은 시 렁 (rack) 내 로 제 한된 다. 여 러 시 렁 들을 벗 어 나는 계 층적인 
모선확장에 서 는 박자 비 뜰어 짐 과 대 역 박자를 없 애 기 힘 들다. 

크로스바교환기나 다단망들로 모선구조를 개선함으로써 이러한 부족점을 어느 정도 
극복할수 있다. 

6. 3. 2. 크로스바교환기 

갈은 포구당자료경 로폭과 같은 수의 접속포구들에 대 하여 크로스바교환기망은 훨 

씬 더 높은 대역너비를 제공할수 있다. 

크로스바는 단일 단계 (single-stage) 교환망이 다. 

전화교환기기 판과 같이 교차점 의 교환기 들은 모든(원천，목적) 쌍들사이 의 동적 인 접 
속을 제 공한다. 교차점교환기 들은 프로그람의 조종밑 에 동적 으로 접 속 (on) 또는 접 속해 
제 (off) 로 될 수 있 다. 

크로스바 교환기를 사용하는 두가지 방법은 다음과 같다. 

하나는 균형적 인 다중처 리기 또는 다중콤퓨터클라스터 들사이의 처 리기호상통신을 위 
한것 이 고 다른것은 SMP 봉사기 나 벡 토르초고속콤퓨터들에서 처 리 기- 기 억기 호상접근을 
위 한것 이 다. 

실례 6.3. Digital 의 GIGAswitch/FDM 크로스바교환기 

그림 6-17 에 Digital GIGAswitch/FDDI 의 크로스바설계 를 제시한다. 

이 크로스바는 Alpha 워 크스테 이 션과 봉사기 들의 여 러 FDDI 들사이 의 클라스터 호상 
접속으로 설계되 였 다. FDDI 완전중복기 술 (FFDT) 을 사용함으로써 매 통로가 100Mbps 인 
22 개까지의 FDDI 포구들을 접속할수 있다. 

그림 6-17 에서 GIGAswitch/FDDI 크로스바교환기는 알파워크스테이션/봉사기 farm 들 
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에 설치되였다. 

cut-through 경로정 하기를 리 용하면 지 연은 20 편 이 하로 작아 진다. 2 또는 4 개의 포구 
선기 판들이 22개 포구크로스바교환기 를 만드는데 사용된 다. 

전체적으로 GIGAswitch/FDDI 는 3.6Gbps 까지의 대역너비를 실현하는데 이것은 이써 
네트보다 360 배나 더 높다. 

GIGAswitch/FDDI 는 Digital 의 TruCluster 에 사용되였다. GIGAswitch/FDDI 는 임의의 
FDDI 고리접속식체계에서 사용할수 있는 일반적인 망제품이다. 이것은 크로스바설계에 
기 초한 마디호상통신체 계 의 좋은 실례 로 된다. 

일반적으로 크로스바의 복잡성은 N 2 으로 증가한다. 여기서 자는 포구의 수이다. 

가격 상제 한으로 하여 앞으로 대 단히 큰 규모의 크로스바교환기 계작은 기 대할수 없 다. 

처리기호상간의 크로스바는 자개 처리기들사이의 치환을 계공한다. 최근에 Sun 
Microsystems 는 Ultra Enterprise(StarFire) SMP 봉사기의 Gigaplane 모선을 Gigaplane-xB 호상접 
속으로 개량하였다. 

이것은 분할된 주소 및 자료경 로들을 가지는 파케 트교환구조에 의한 크로스바호상 
접속이다. 64 개까지의 처 리기들이 4 개의 snoopy 주소모선들과 하나의 16X16 자료크로스 
바교환기 에 의해 접 속된 다. 

크로스바는 처 리 기들사이의 점대점자료통신에 사용되며 주소분배는 snoopy 모선의 방 
송경로기들을 처리한다. 

SunFile 체계는 앞으로 8 장에서 학습한다. 

크로스바소편설계 

크로스바망들은 크로스바교환기 소편들로 구성 된 다. 

이 크로스바소편들은 다단망들에 서도 사용될수 있 다. 

아래 에서 IBM SP2 다중를퓨터체 계의 크로스바소편설계 를 고찰한다. 

실례 6.4. IBM Vulcan 크로스바소편설계 

IBM Vulcan 크로스바교환기 소편설 계 는 그림 6_18 에 제 시 되 였 다. 이 교환기 는 IBM 
SP2 에서 다단망의 구성요소로 사용되였다. 매 소편은 8 개의 입력포구와 8 개의 출력포구 
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를 가진다. 단순화한 wormhole 경로정하기를 사용한다. 8 X 8 크로스바는 충돌이 없을 때 
40 MHz 주기마다 8개의 파케트세포 ( flit 라고 한다.)들을 교환기로 통과시 킬수 있다. 

기 억 기호출충돌분쟁 이 있을 때 는 한번 에 하나의 교차점교환기만 파케 트를 통과시 킬 
수 있다. 차단된 flit 들은 중앙대기 별 에서 완충된다. 

이 완충은 이전의 교환단계 로부터 다음의 flit 들을 받기 위하여 입 력포구들을 해제한 
다. 중앙대기 렬은 한 박자주기 에 한번의 읽 기와 한번의 쓰기 를 수행할수 있는 이 중포구 
RAM 으로 실현한다. 

최대대역너비와 정합시키기 위하여 매 입력포구는 먼저 자기의 FIFO 로부터 8개의 
flit 들을 하나의 덩어리로 만든 다음 전체 64 bit 덩어리를 한 주기에 중앙대기렬로 쓴다. 


처 리 기 -기 억 기 크로스바교환기 (Processor-Memory Crossbar Switch) 

모선접속된 다중처리기는 모선대역너비에 의해 제약된다. 대단히 많은 처리기들이 
공유기억 기 에 접 근할 때 모선은 빈번히 병 목으로 된다. 

더 좋은 방법은 그림 6-19 에서와 같이 처리기호상간의 기억기모선을 크로스바교환기 
로 교체하는것 이 다. 



그림 6-18. SP2 HPS 를 위한 8X8 크로스바 (Vulcan) 소번설 계 

이것은 여러 기억기장소들에 대한 기억기에 병렬로 접근할수 있게 한다. 

이것은 본질에 있어서 기억기접근망이다. 주요우점은 기억기대역너비 또는 처리기와 
공유기억기 들사이 의 자료전송속도가 뚜렷하게 증가한다는데 있 다. 

매 기억기모둘에는 한번에 하나의 처러기만 접근할수 있다. 여러개의 요청이 하나의 모 
둘에서 충돌하면 크로스바는 그 충돌을 해소하여야 한다. 

매 교차점교환기 의 동작은 충돌모선의 경 우와 매 우 비 슷하다. 

그러나 처리기는 서로 다른 기억기모둘들에 접근하기 위한 주소렬을 관흐름형식으 
로 또는 동시 에 생 성할수 있 다. 
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그림 6-19. n 개 처 리 기 와 m 개 의 기 억 기 모듈사이 의 nxm 크로스바교환기 부분체 계 


일반적인 SMP 봉사기들에서는 거의 모든 모듈들이 처리기와 기억기장소사이에 모선 
접 속을 리 용한다. 최 근에 IBM 과 Sun Microsystems 는 다른 SMP 판매 자들로부터 확대 가 
능한 SMD 봉사기 의 크로스바 교환기호상접 속에 대 한 의 견을 받았다. 

6. 3. 3. 다단호상접속망 


큰 교환망을 구성하려면 단일단크로스바를 여러 단으로 확장해야 하는데 이것을 흔 
히 다단호상접속망 (MIN) 이 라고 부론다. 

MIMD 및 SIMD 콤퓨터 들은 MIN 을 사용하였다. 매 단에 여 러개의 교환기모둘들이 
사용된다. 린접한 단들의 교환기들사이 에서 는 고정된 단호상접 속이 러 용된다. 교환기접속 
은 입 력 들과 출력 들사이 의 목적 하는 접 속형 태 를 확립 하기 위하여 동적 으로 접 속 또는 접 
속해제될수 있다. 

교환모듈 

nx « 교환기모둘은 n 개 의 입 력와 «개 의 출력 을 가진다. 2진교환기 는 그림 6-20 자)에 
서 보여 주는바와 같이 2 x 2 교환기모둘에 대 응한다. 매 입 력은 임의 의 출력포구에 접속 
될수 있다. 그러나 1대 1 또는 1대 n 넘기기만이 허용되며 n 대 1넘기기는 출력충돌때문에 
허용되지 않는다. 


오메 가망 

일 반적 으로 « xn 크로스바교환기 는 «!개의 치 환접속을 실현할수 있다. 서 로 다른 종류 
의 Mm 들은 사용되는 교환기모둘들과 단호상접속 (ISC) 형태들에서 서로 다르다. 자주 사 
용되는 ISC 형 태 에는 완전혼합， butterfly, 다통로혼합，크로스바，립 방체접속 등이 있다. 

그림 6-20 자 )에 오메 가망을 구성하는데 사용된 2 x 2 교환기 의 가능한 4개 의 접 속을 
제 시 한다. 

2 x 2 교환기 8 x 8 오메 가망을 그림 6-20 )에 제 시한다. 

오메 가망은 일 러 노이 즈대 학의 Cendar 다중처 리 기 에 서 실현되 였 다. 

Cray Y/MP 벡 토르다중처 리 기 와 IBM SP2 다중콤퓨터 의 MIN 설 계 실 례 를 보자. 
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실례 6.5. IBM 고성능교환기 (IBM High Performance Switch ， HPS) 

마디 의 모든 교환기하드웨 어 들과 교환기프레 임 들은 고성 능교환기 ( HPS ) 를 형 성한다. 
매 프레 임 은 16개 통로교환기기 판으로 접 속된 16개 의 프로쎄 스마디 들 ( NO 부터 N 15 까지 ) 
로 구성된다. 

8개 의 프레 임 은 교환기 기 판들의 여 유단에 의해 호상접 속된다. 매 얇은 선은 8 bit 쌍방 
향련결을 나타낸다. 두터운 선은 4개의 8 bit 련결들을 나타낸다. 

매 교환기기 판에는 2개 의 단이 있 다. 
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그림 6-21. 4단계 의 16 통로교환기 로 된 IBM SP2 의 128통로고성 능교환기 













































총체 적 으로 이 MIN 은 4 개 의 교환기 단을 가진다. HPS 는 40MHz 의 박자로 동작하는 완 
충식 wormhole 경 로정 하기 를 사용하는 파케 트교환의 다단오메 가망이 다. 

128 개 의 마디 들을 접 속하는 실 례 HPS 를 그림 6-21 에 제 시한다. 매 교환기기 판은 두 
개 단의 교환기 소편을 가진다. 교환기기 판의 왼쪽 련결들은 프레 임안의 마디 들을 접 속하 
는데 사용된다. 오른쪽 련결들은 프레 임호상접 속을 제 공한다. 매 련결은 8bit 이 며 쌍방향 
이다. 

통보문들은 과케트들로 분할되고 파케트들은 차례로 8 bit 의 흐름조종수자 ( flit ) 들로 분 
할된 다. 

충돌이 있을 때 하나의 flit 가 HPS 의 한개 단(실례로 하나의 교환기소편)을 통과하는데 
5 박자 또는 125ns 걸린다. 따라서 충돌이 없을 때 HPS 의 하드웨어지연은 875ns 로써 작다. 

응용의 프로쎄 스들에 의한 실제 적 인 지 연은 더 높다. 하나의 프로쎄 스가 하나의 빈 
통보문을 다른 프로쎄스에 로 전송하는데는 적 어도 40 썬가 걸린다. 

이 통보문넘 기 기지연은 쏘프트웨어 부가처 리때 문에 생 긴다. 마디쌍사이 에 서 HPS 는 
포구당 40MB/S 의 대역너비를 제공한다. 

임의의 고성능클라스터체 계 를 설계하는데서 2개의 중요한 문제 가 해결되 여 야 한다. 
모든 마디들에서 박자가 동기화되는것 이 좋다. 례를 들면 2개의 마디가 갈은 시각에 
Unix 함수 gettimeofdayO 를 호출하면 두개의 호출은 같은 값을 되돌린다. 

물론 완전동기화는 불가능하다. 

어 떻게 하면 박자들을 가능한껏 치밀하게(실례로 몇마이크로초인 작은 편차내 에서) 
맞추겠 는가 하는것 이 박자동기 화문제 이 다. 

두번째 문제는 긴 선문제이다. 

클라스터마디 들은 MPP 마디 보다 더 복잡하므로 일 반적 인 MPP 와 같이 치 밀하게 묶을 
수 없다. 

마디사이의 통신선들은 보통 lm 보다 길다. 선의 길이는 지연과 대역너비에 다 나른 
영향을 준다. SP2 는 동기통신망을 사용하여 박자동기화문제를 해결한다. 전체 HPS 는 보 
통의 40MHz 진동자로 박자동기화된다. 

동기 망은 매 마디 가 다른 마디 들의 박자와 동기 되 는 국부 time-of-day 박자를 유지 할 
수 있게 한다. 

IBM 은 동기화된 마디 의 박자들을 몇마이 크로초내 에 동조시 키 는 worm 이 라는 프로그 
탐을 개발하였다. 


실례 6.6. Cray Y/MP 다단망 

이 망은 그림 6-22 에서 보여 주는바와 같이 4 x 4 및 8 x 8 크로스바교환기들, 1 x 8 역다 
중화기 들로 구성 된 다. 

망은 8개 의 벡 토르처 리 기 들과 256개 의 기 억 기 장소사이의 자료흐름을 지 원하도록 설 
계된 다. 

망은 8개의 처 리 기들에 의한 기 억기접 근충돌을 피할수 있다. 


285 



6. 3. 4. 교환호상접속들의 비교 

아래 에서는 확대 가능한 가동환경 을 고찰한다. 클라스터 체 계들에서 동적 인 체 계호상 
접속을 실현하기 위한 체계모선들, 다단망들, 크로스바교환기들에 대한 장치요구와 성능 
을 비교한다. 표 6-2 에 교환호상접속의 가선/교환복잡성，처 리기당 대 역너 비，집 합대 역너 
비를 개괄한다. 


하드웨어복잡성 

모선호상접 속은 제 한된 가선 및 교환복잡성 으로 하여 세 가지중에 서 가장 가격 이 낮 
다. 가선복잡성은 기 본적 으로 자료경 로폭과 모선설계의 주소폭에 의하여 규정된다. 

256개 자료선과 42개 주소선들은 현재의 모선들의 기술상태를 보여 준다. 주소선들 
은 25的 it Futurebus 의 64개의 공유된 주소/자료선들과 같이 자료경로의 부분으로서 은페 
시킬수 있 다. 

모선교환복잡성 은 모선의 접 속분기 의 수 n 에 의하여 결정 되 며 체 계모선에 련결되 는 
적 은 수의 처 리 기 들과 기 억 기 및 I/O 기 판들에 대 해 서 도 제 약된 다. 

생를 모선의 자료경 로폭이라고 하자. 

모선호상접 속의 하드웨 어복잡성은 표 6-2 에서 0(«+ w ) 로 보여 주는바와 같이 ra 과 w 
에 관하여 선형으로 증가한다. 

크로스바교환기 는 그것의 장치복잡성 이 n 2 w 에 따라서 증가하기때 문에 제 작비 용이 
가장 비싸다. 
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표 6-2 __ 교환호상접속의 복잡성과 대역너비 


호상접속의 특징 

체 계 모선 

다단망 

크로스바교환기 

하드웨 어 복잡성 

0(n+w) 

0(nwlog k n) 

0(n 2 w) 

처리기장치당 대역너비 

0(wf/n) 부터 0(wf) 

0(wf) 

0(wf) 

알려 진 집합대역너비 

SunFire 봉사기 의 
Gigaplane 모선 에 
대하여 2.67GB/S 

IBM SP2 의 512개 

마디에 대하여 

10.24GB/S 

Digital 의 
GiGAswitclv 게 

대하여 3.4GB/S 


여기서 « 2 은 크로스바교환기의 교차점의 수에 대응하며 «는 교차점교환기설계의 통 
로목이 다. 

같은 자료경로폭에 대하여 nx « 크로스바교환기는 모선호상접속보다 거의。배 더 비 
싸다. 

N 개 의 입 력 다단망은 0[( nlo & t «) w ] 의 장치 복잡성 을 가진다. 

여기서 은 foot 교환기들의 구성요소로 사용된다고 할 때 사용된 교환기의 

수에 대응된다. 여기서 w 는 Mm 설계에서의 련결폭이다. 

이 복잡성은 모선들의 두 극단과 크로스바교환기들사이에 놓인다. 

MIN 은 같은 통로폭에 대 하여 크로스바교환기보다 비 용이 n / log^n 배 적 게 든다 
는것을 알수 있다. 


처 리 기 당 대 역 너 비 (Per-Processor Bandwidth) 

SMP 봉사기 에 서 모선은 «개 의 처 리 기 에 의 해 시 간공유된 다. 그러 므로 «개 의 처 리 기 
는 모선대 역너 비를 놓고 경쟁한다. 같은 박자속도 /틀 가정할 때 매 개 단위자료전송에 3 
가지 호상접 속모두에 서 1주기만 걸린다. 처 리 기 당 대역너비는 0( wf / n ) 과 O ( wf ) 의 범 위내 
에 있다. MIN 과 크로스바는 다 더 넓은 처 리기당 대역너비를 가지며 함수 O ( wf ) 에 따라 
선형으로 변한다. 

이 것은 명 백하게 모선구조에서의 병 목효과를 가러 킨다. Mm 에서 하나의 자료조각 
( piece ) 을 여 러 교환기단을 거 쳐 전송하는데 많은 박자가 필 요하지 만 같은 박자속도 f 를 
가질 때 조차도 모선은 하나의 단위자료조각을 전송하는데 더 적은 박자 (1 또는 2주기)를 
요구 한다. 

그러하여 실제적 인 모선당 대역 너 비는 MIN 보다 그리 낮지는 않다. 모든 경우에 크로 
스바는 짧은 지 연 (1 또는 2개 주기 )과 입 력 포구와 출력포구사이 의 충돌 없는 접 속으로 
하여 가장 높은 처리기당 대역너비를 가진다. 


집 합대 역 너 비 (Aggregate Bandwidth) 

표 6-2 의 마지 막행 에 서 시 장에 서 구입할수 있는 3가지 대 표적 인 모선， MIN , 크로스 
바호상접속의 집합대역너비들을 볼수 있다. 

여 기 서 Gigaplane 모선은 2.67 B / s =21.36 Gbps 의 집 합대 역 너 비 를 가진 다. 

N =24 개 의 처 리 기 들 이 대 역 너 비 를 공 유 한 다 고 할 때 처 리 기 당 대 역 너 비 는 
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21.36/24=0.89Gbps 로 낮다. 

다른 한편 GIGAswitch 크로스바는 3.4Gbps 의 집합대역너비를 가진다. 

이것은 GIGAswitch 의 처러기당 대역너비가 Gigahplane 모선보다 거의 3.8 배 더 높다는 
것 을 의 미한다. 

3 가지 중에 서 IBM HPS 는 «=512 포구보다 훨 씬 더 큰 구성 을 가지 며 결 과 집 합대 역너 
비가 10.24GBps=8192Gbps 로 된다. 이러한 원인으로부터 MIN 은 모선이나 크로스바호상접 
속보다 더 확대가능하다고 결론할수 있다. 


교환기 선택 

상업체 계들중에서 40 개 이하의 처 리 기들을 가지는 SMP 체 계 에는 모선이 아직 가장 비 
용이 효과적 인 체 계호상접 속이 라는것 은 의 심할바 없 다. 

크로스바호상접속은 성능이 가격에 비하여 높든가 또는 체계가 좀 작을 때 즉 16 개 
이하의 처리기를 가질 때 선택될수 있다. 

이것은 Sun 의 StarFire SMP 봉사기가 4 개의 주소모선과 64 개 처리기들사이의 16x16 
크로스바 교환기호상접 속으로 구성되 였 다는 사실 로부터 확증할수 있 다. MM 의 주요우월 
성 은 모둘구성 에 의 한 확대 가능성 에 있 다. 그러 나 지 연은 망의 단계 의 수 log n 에 따라 
증가한다. 가선 및 교환복잡성 의 증가로 인한 가격 은 상용망들에 서 큰 MIN 들을 구성하 
는데 또 다른 제한으로 된다. 

때문에 상업 SP2 체계는 최대크기가 128 개 마디로 된다. 

앞으로 MPP 나 클라스터체계들을 구성하는데서 점대점위상들이 보다 융통성 있고 
정규적으로 구조화된 망들보다 더 확대가능할것 이다. 

광학적호상접속과 수자신호처리, 극소전자공학의 발전과 함께 대규모 MIN 또는 크 
로스바망들은 더 큰 다중처리기들 또는 다중콤퓨터들에 널러 사용되게 될것이다. 1997 
년 에 개 발된 기 술에 기 초한 64 X 64 크로스바와 512 개 입 력 MIN 은 상업체 계 들에 서 구성 
되였다. 


6. 4. 기가비트망기술 

기 가비 트망기술은 매 체 공유와 점 대 점，교환망들에 사용되 였다. 

아래에서 이 기가비트망기술의 기능적능력과 구조적인 접속, 응용을 특징 짓는다. 

6. 4. 1 . 빚섬유통로와 FDDI 고리 

먼저 통로와 망을 구분하자. 

다음 빛섬유통로와 FDDI 고리들을 고찰한다. 


통로와 망 

이것들은 처 리 기들사이의 자료통신이 나 처 리기들과 주변장치 들사이의 통신을 위한 
두가지 기본적인 형태이다. 
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통로는 통신장치들사이의 직접적 또는 교환에 의한 점대점련결을 제공한다. 통로 
는 전형적으로 하드웨 어집 약적 이며 자료를 높은 속도로 낮은 부가처 리를 가지고 넘기 
기 한다. 

통로는 미러 정의된 주소로 몇개의 장치들과만 동작한다. 

HiPPI, IBM, SCSI 는 모두 잘 정의된 자료통로표준들을 가진다. 

대비적으로 망은 분산된 마디들(워크스테이션들이나 파일봉사기들, 주변장치들)의 집합 
체이며 이 러한 마디들사이의 호상접속을 지원하는 자체의 규약을 자진다. 

망은 쏘프트웨 어집 약적 인것 으로 하여 상대 적 으로 높은 부가처 리 를 가지 며 결과 통로 
보다 더 느리다. 망들은 예상할수 없는 접속환경에서 동작하므로 통로보다 더 넓은 범위 
의 과제 들을 처 리할수 있 다. 

잘 확립된 망표준에는 TFFF, 802 와 TCP/IP, ATM 규약들이 있다. 

빛섬유통로 (Fiber Channel) 

ANSI X3T11 는 통로들의 집적화된 모임 으로서의 빛섬유통로 (FC) 와 망화 (networking), 
기 억，워크스테 이 션들과 대형콤퓨터 들，초고속를퓨터 들，기 억 장치들，현시장치들사이 의 자 
료전송을 위한 망표준을 서 술하였 다. FC 표준은 대 량정 보를 초고속으로 전송하여 야 할 
필 요성 을 설 명하였 다. 

이 표준의 목표는 망화와 기 억，자료전송을 위한 하나의 표준을 제 공하여 현재 통로 
와 망의 다양성을 지원하여 야 하는 부담으로부터 체계제 작자들을 해 방하는것 이 다. 

빛섬 유통로는 가장 좋은 통신통로와 통신망수단들을 통로사용자들과 망사용자들의 
요구에 맞는 새 로운 I/O 대 면부와 결 합시키 는것 을 목적 으로 하고 있 다. 

서 로 다른 판매 자들의 제 품들사이 의 호상운영 성보증을 위하여 표준을 평 가하는 빛 섬 
유통로체계 창시 (Fiber Channel Systems Initiative, FCSI) 라고 하는 협회가 Hewlett-Packard 와 
IBM, Sun Microsystems 에 의해 형성되 였다. 

빛섬유통로기술 

빛 섬 유통로는 공유매 체 이 다. 

이것 은 교환기술로도 구성 될수 있 다. 

현재 빛 섬 유통로는 100 부터 133,200,400, 800Mbps 범 위 의 속도로 동작한다. 

FCSI 판매 자들은 앞으로 1, 2, 4Gbps 라는 더 높은 속도를 달성하여 야 한다. 빛 섬 유통 
로는 점대점과 고리，교환식별형의 접속을 지원하는데 사용되였으며 그외에 LAN 응용 
들에서 의 뢰기-봉사기 해법 또는 집선기 (hub) 해 법 도 제 공한다. 

빛섬유통로는 50m 까지 STP 동선을 사용하여 100Mbps 로 동작하며 10km 까지는 한파모 
습빛섬유를 사용하여 동작한다. 

다중방식빛 섬 유를 가진 빛 섬 유통로 LAN 은 2km 까지 200Mbps 의 속도를 보장한다. 현 
재의 높은 쏘프트웨 어부가처 리는 망련결 (optical link) 을 사용하는 대부분의 실현에서 빛섬 
유통로의 최종적 인 성능을 255Mbps 이하로 제한한다. 빛섬유통로의 유용성은 일부 기가비 
트 LAN 들 (6.4.2 에 서 고찰한 기 가비 트이 써네 트)이 빛 섬 유통로기 술에 기 초하고 있 다는 사 
실토부터 확증할수 있다. 
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5 층 FC 표준 

빛섬유통로구조는 표 6-3 에서 개괄한바와 같이 5개의 표준층들로 구성된다. 

이 층들은 물러매체와 전송속도들 ( FC -0)， 자료의 부호화와 복호화방법 ( FC -1), 프레임 
화규약과 흐름조종 ( FC -2), 공통봉사와 형태선택 ( FC -3), 웃층규약과 여러가지 자료통로들， 
망표준들에 대 한 응용대 면부 ( FC -4) 를 정 의한다. 

IBM 동로는 Escon(enterprise systems connection ) 대 면부들을 참조한다. 


표 6-3 _ 빚섬유릉로의 5 층 표준들 


표준 

자료동로들 

망규약들 

OSI 층 

FC-4 

HiPPI IBM SCSI 

IEEE802 TCP/IP AIM 

자료 

련결층 

FC-3 

공동봉사 (common servises) 

FC-2 

프레 임 만들기 /흐름조종/봉사콜라스들 

FC-1 

부호화/복호화 8B/ 10B 

물리 층 

FC-0 

100 200 400 800 미래의 더 높은 속도 

Mbps Mbps Mbps Mbps 


FC -3 층은 FC 접속과 회선교환으로부터 프레임교환에로의 병행, 고정비트속도동시성 
( constant - bit-rate isochronons ), 혼합전송의 4가지 명백 한 봉사부류들을 특징 짓는다. 

아래 2개 의 층은 OSI 의 물리층에 대 응하며 웃 3개 의 층은 OSI 의 자료련결층과 
류사하다. 아래 3개 의 층을 통채 로 빛 섬 유통로물러표준 ( FCPH ) 이 라고 부론다. 빛 섬 유통 
로의 우월성은 단일련결우로 통로와 망의 규약들을 동시에 전송하는 융통성 이 있다는 
것 이 다. 

이것은 통로와 망자료통신모두에 대 한 만능적인 대면부를 제공한다. 이것은 FDDI , 
직 렬 HiDDI , SCSI , IPI(intelligent peripheral interface ), IP , IEEE 802.2 등으로 함께 동작 
할수 있다. 

빛섬유통로위상 

망위상에서의 융통성은 빛섬유통로의 주요한 문제이다. 

이것은 점대 점, 중계 고러，교환식구조접속들을 지 원한다. 

• 점대점접속(그림 6-23 가)은 를퓨터를 다른 콤퓨터 에 또는 콤퓨터를 세 가지 위 
상의 가능한 가장 높은 대역너비를 가지는 디스크에 접속할수 있다. 

• 중계고리 (그림 6-23 는 통표고리에서 126개까지의 장치를 접속한다. 이것은 
많은 기 억 장치 들의 호상접 속에 좋다. 리용가능한 대 역 너 비 는 모든 장치 들사이 에 
서 공유된다. 이 고리의 우월성은 낮은 가격에 있는데 그것은 교환기가 필요 없 
기 때 문이 다. 

• 교환식구조위상은 가장 큰 처리 량을 준다. 서로 다른 속도의 많은 장치들이 중 
앙빛섬유교환기에 접속될수 있다. 

완충식 wormhole 경 로정 하기 가 사용된 다. 

8 x 8 크로스바는 충돌이 없으면 매 40 MHz 주기에 8개의 파케트세포들 ( flit 라고 한다.)을 
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교환기로 통과시킨다. 

분쟁충돌이 있을 때는 한번에 한개의 교차점교환기만이 동작할수 있다. 차단된 flit 들 
은 중앙대기렬에서 완충된다. 



L ) 중계식고리 


C ) 교환식구조 


그림 6-23. 빛 섬 유통로의 3가지 호상접 속위 상들 


이 완충은 이전의 교환기 단 ( stage ) 으로부터 련속적인 flit 들을 받기 위 하여 입력포구들 
을 해제시킨다. 

중앙대기 렬은 한 박자주기 에 하나의 읽기와 하나의 쓰기 를 수행할수 있는 2중포구 
( dual - port ) RAM 으로 실현된다. 

최대대역너비를 맞추기 위하여 매개 입력포구는 먼저 자기의 FIFO 로부터 8개의 flit 들을 
하나의 멍어리로 만들어 전체 64 bit 덩어리를 1주기의 중심대기렬에 쓴다. 

FDDI 

Digital Equipment 는 매 체 공유 FDDI(fiber distributed data interface ) 기 술을 개 발하였 다. 

FDDI 는 워 크스레 이 션(워 크스레 이 션)들사이 의 100~200 Mbps 전송을 제 공하기 위 하여 
쌍방향빛 섬 유통표고리 를 사용한다. 

반대 방향으로 회 전하는 2개 의 2중고리 는 확실성 을 담보하기 위한 여 분의 경 로들을 
제 공한다. 

이것은 동선에서 는 100 m , 다중방식빛섬 유에서는 2 km , 한파모습빛 섬 유에서 는 60 km 까 
지 많은 장치들을 호상접속하는 능력을 가진다. 

2중련결된 다중방식빛섬 유 FDDI 고리 들은 반복기 나 다리 들을 사용함이 없 이 200 km 
까지 확장할수 있다. 이것은 LAN 과 MAN 응용들에서 FDDI 고리들을 사용할수 있게 한다. 
FDDI 고리 들은 고장허 용 ( fault - tolerant ) 조작들에서 도 우월 하다. FDDI 집 중기 들은 망을 실패 
와 분리시킴으로써 믿음성 있게 만든다. 사명 이 중요한 봉사기들은 더 높은 고장허용을 
위하여 2개의 집중기에 접속할수 있다. 

100 Mbps 기 간 FD 이망을 그림 6-24 에 보여 준다. FDDI 고리들을 많은 탁상콤퓨터들 
에 접 속하는 이씨 네 트집 선기 에 접 속하기 위하여 특수한 경 로기 들을 사용한다. 

FDDI 고려는 흔히 보충과 제거를 요구하는 환경이나 임의의 망분리를 일으키지 않고 
련결된 호스트나 장치들을 옮길 때 에 사용한다. 

통표고리 FDDI 는 매 체공유응용들에 서 대 중적 이 다. FDDI 는 워 크스테 이 션클라스터 들 
을 지 원하기 위하여 더 높은 융통성 을 제 공하도록 개 량될 수 있 다. 
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그림 6-24. 기 간망으로서 의 2 중 FDDI 고려 들 

FDDI 의 약점 은 FDDI 가 비 동기적 으로만 동작하는것 으로 하여 다매 체 통신흐름지원 에 
서 는 무능하다는것 이 다. 

이 것 은 ATM 기 술과의 경 쟁 에 서 FDDI 를 약화시 킨 다. 

그래서 시간에 예민한 통신흐름을 잘 처리하는 동기 FDDI 제품들이 출현하였다. 

이것은 FDDI 가 앞날의 응용들에서 자기의 사용그룹중 일부를 보존할수 있게 한다. 
Digital 의 FDDI 기술은 충분히 중복된 방식 으로 FDDI 를 사용할수 있게 하며 또 FDDI 
의 경쟁성을 높여 준다. 


6. 4. 2. 고속이써네트와 기가비트이쎄 dl 트 


이 부분에서 는 3개 의 이써네 트세 대 들을 고찰한다. 그다음 대 학환경들에서 의 학문적 
인 연구과제 의 경 과인 Myrinet 를 소개 한다. 


표 6-4 _ 이쎄 dl 트개발의 3개 세대 


세대 

이써네 트 lOBaseT 

고속이 써네 트 100BaseT 

기가비트이써네트 

소개된 년도 

1982 

1994 

1997 

대역너비 ( 속도 ) 

10 Mbps 

100 Mbps 

lGbps 

UTP 쌍꼬임 선 

100m 

100m 

25-100m 

STP/ 동축케 블 

500m 

100m 

25-100m 

다중방식빛섬유 

2km 

반중복에서 412, 완전중복 

에서 2km 

500m 

한파모습빛섬유 

25km 

20km 

2km 

주요응용들 

파일공유인쇄기 

공유 

작업그룹콤퓨터 
의뢰기 - 봉사기구조，큰 자 
료기지접근 

큰 화상파일， 
다매체，인트라 
네트 , 인터네트 , 
자료창고 
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이씨 네 트세 대 다중콤퓨터클라스터 들이 나 인터 네 트응용들에서 오늘날의 대 역 너 비요구 
를 더는 충족시킬수 없다. 

1994년 에 두개 의 100 Mbps 고속이 써 네 트판본 (100 BaseT 와 lOOVGAnyLAN ) 이 개 발되 
였 다. 

1982년 에 처 음으로 등장한 10 Mbps 이 씨네 트는 다중콤퓨터클라스 혹은 인 터네 트에 서 
오늘의 대역너비요구를 충분히 만족시 키지 못한다. 최근 1997년에 IEEE 802.3 연구집단그 
룹은 1기 가비 트이써네 트의 유용성 을 발표하였 다. 이씨 네트기술의 발전을 속도(대 역너 비) 
와 케 블길 이 , 전형 적 인 응용의 견지 에 서 표 6-4 에 요약하여 제 시하였 다. 


케 블거 리 (Cabling Distance) 

이써네트의 최대거 려는 사용된 케블기술에 의존하는데 2沈 m 까지 보장한다. 기 가비트 
이씨네 트에서는 망거러 가 25 m 부터 2 km 까지 범위 로 줄어 든다. 표 6_4는 쌍꼬임선(카레 고 
리 5 UTP ) 으로부터 STP 동축케블과 한파모습빛섬 유까지 뚜렷한 거 리증가를 보여 준다. 

기 가비 트이써네트는 더 큰 대 역 너 비를 요구하는 구내 또는 건물을 목표로 할것 이 다. 
100 Base - T 는 동선 100 m ， 한파모습빛 섬 유 20 km , 완전중복다중방식 빛 섬 유 2 km 에 서 100 
Mbps 로 동작한다. 

또 다른 고속이 씨 네 트기술은 lOOVG - AnyLAN 인 데 쌍꼬임선 100~150 m 와 빛 섬 유케 블 
4 km 에 서 100 Mbps 의 속도를 계공한다. 

이씨네트는 대체로 모선 또는 병형위상이며 한편 고속이써네트는 대체로 별형위상을 
지 원한다. 투자보호를 위하여 기 가비 트이 써네 트는 이 전의 이씨네 트세 대들에 망하부구조， 
관리，응용들의 변화를 요구하지 않는다. 

기 가비 트이 써 네 트이 동 (Gigabit 이써 네 트 Migration) 

호상운영 성 ( interoperability ) 과 뒤 쪽호환성 (backward compatibility ) 은 기 가비 트이 써 네 트 
의 2개의 주요한 수단이 다. 

이것 은 오래 동안 이써네 트에서 사용된 CSMA / CD 접 근규약을 유지한다. 빛섬 유케 블은 
초기의 포구당 가격 이 좀 높다. 규소 ( silicon ) 기술과 수자신호처리의 발전은 앞으로의 
Category 5 UTP 가선우에서 기가비트망의 경제적인 지원을 가능하게 할것이다. 

실 례 6.7. 기 가비 트이 써 네 트 LAN 의 기 간 

그림 6-25 에서는 교환식 고속이씨 네트기 간을 어떻게 기 가비 트기 간 LAN 으로 갱 신하는 
가를 보여 준다. 고성 능봉사기 farm 들은 기 가비 트인 터 네 트 NIC 들을 가지 고 이 기 가비 트 
기간에 직접 접속될수 있다. 

이 갱 신은 인 터 네 트사용자들을 위 한 다중봉사기 클라스터 의 처 리 량을 증가시 킨 다. 

4가지 이써네 트갱 신계 획 은 다음과 같다. 

• 응용들과 파일봉사기 들에 대 한 고속접 근을 달성 하기 위하여 교환기 들을 봉사기 
련결 로 갱 신하여 야한다. 

• 100 과 lGbps 교환기 들사이 의 lGbps 관흐름을 실현하기 위 하여서 는 교환기 대 교 
환기 련결들을 갱 신하는것 이 다. 
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• 교환식 이 씨 네 트기 간을 기 가비 트이 써 네 트교환기 또는 반복기 를 가지 는 집 체 (aggregate) 
고속이써 네 트교환기 로 갱 신하는것 이 다. 



• 공유 FDDI 기 간을 기 가비 트 이 써 네 트교환기 들, 반복지 들을 가지 는 설 치 (install) 
FDDI 교환기 또는 이써 네 트 대 FDDi 교환기 들/경 로기 들로 갱 신하는것 이 다. 

기 가비 트이써 네 트표준 IEEE802.3z 는 1978 년에 완성 되 였 다. 모든 이써 네 트세 대 들은 
MAC(media access control) 규약 CSMA/CD 를 사용한다. 

물리층에서는 빛섬유통로와 쌍꼬임기술들이 케블련결대면부들에 러용된다. 여러 판 
매 자 (Vendor) 들이 이 미 기 가비 트이써 네 트교환기 들을 생 산하였 다. 실 례 로 Plain 仕 ee Systems 
는 16 개 의 기 가비 트이써네 트포구들 또는 64 개 FDDI SAS 포구들, 128 개 lOOBase-TX/FX 포 
구들을 지 원 할수 있는 비차단교환기 WaveSwitch9200 을 생 산하였 다. 

6. 4. 3. SAN / LAN 구성들 위한 Myrinet 

Myrinet 는 Myricom, Inc 에 위 하여 제 안된 Gbps 파케 트교환망이 다. 

Myricom 의 목표는 콤퓨터 들의 클라스터 들을 구성 하기 위 한 체 계 호상접 속상품(제 품) 
을 만드는것 이 다. 아래 에 서 Myrinet 기 술과 교환기 들, 련결 들, 대 면부들，쏘프트웨 어 지 원, 
제안된 응용들을 개괄한다. 

Myrinet 는 다중콤퓨터 와 캘 리 포니 아기 술대 학에 서 개 발된 VLSI 기 술，북부캘 러 포니 아 
대 학에서 개 발된 ATOMIC/LAN 기술에 기초하고 있 다. 

이것은 탁상호스트들파 봉사기 farm 들의 in-cabinet SAN 클라스터들파 LAN 에 기초한 클 
라스터들을 구성하기 위하여 설계되였다. Myrinet 는 임의의 위상을 말을수 있으며 교환기들 
로 된 그물이나 임의의 정규적인 위상으로 제한할 필요가 없다. 

Myrinet 는 가변길 이 파케 트형 식 , 매 련결우에 서 의 흐름조종과 오유처 리 , 파케 트들의 
경 로를 정 하기 위 한 cut-through 크로스바교환기 들의 사용，전용프로그람화가능한 호스트 
대면부들에 의하여 자료련결수준에서 정의된다. Myrinet SAN 은 감소된 물리적크기와 부 
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분들로 하여 Myrinet LAN 보다 가격 이 낮다. 

물리 수준에서 Myrinet 는 1.28+1.28Gbps 의 최대속도를 가지는 완전중복 SAN 련결들을 3 
개 까지 사용한다. LAN 의 련결 로서 사용하면 전기케 블에 서 는 25m 까지， ribbon 빛 섬 유에 서 
는 500m 까지 달성 할수 있 다. 


Myrinet 교환기 

차단식 cut-through(wormhole) 파케 트경 로정 하기는 Gray T3D 와 Intel Paragon 에 쓰인것 
파 비슷하게 Myrinet 교환기들에서 사용된다. 

임 의의 망위 상에서 다중포구교환기 들은 다른 교환기 들이 나 단일포구호스트대 면부들 
과 련결들에 의하여 접 속된다. 

그밖에 매 교환기 는 그림 6-3 에 서 보여 준것 과 류사하게 흐름조종과 입 력완충기 들 
을 가진 관흐름식크로스바이다. 

파케트는 머리부가 수신되고 해득되자마자 선택되여 나가는 통로에로 전진한다. 교 
착허 용경 로정 하기방법 에 따라 여 러 파케 트들이 동시 에 Myrinet 를 통과할수 있 다. 

현재 의 8 개 포구 Myrinet 교환기 는 10.24Gbps 의 2 등분대 역 너 비 를 가지 며 경 로형 성 에 
최대로 300ns 의 지연이 있고 전원소비는 6~llw 이다. 

Myrinet 파케트의 유효자료는 가변길이를 가진다. 이것은 임의의 형태의 (IP 와 같은) 파 
케트를 적응층이 없이 나를수 있게 한다. 

Myrinet 호스트대 면부 

호스트대면부는 Myrinet 대 면부와 파케 트대 면부， DMA 기 계，고속정 적 RAM 을 가지는 
LANai 소편 이 라고 부르는 32bit 전용 VLSI 처 리 기 근방에 설 치 된 다. 

SRAM 은 파케트완충에서와 같이 Myrinet 조종프로그람 (MCP) 을 기억하는데 사용된다. 

이 극소형 구조는 일 반모선과 Myrinet 련결사이에 유연하며 고속의 대 면부를 제 공한다. 
지 금 Myricom 은 Sun SPARC 워 크스테 이 션들을 위 한 Myrinet/Sbus 대 면부들과 PCI 에 기 초한 
개 인용콤퓨터 들을 위한 Myrinet/PCI 대 면부들을 만들고 있 다. 

빛섬유대면부들도 만들어 지고 있다. 

MCP 쏘프트웨 어는 OS 부가처 리를 피 하여 대 면부의 처 리기 에서 실행된다. 

그러나 장치구동프로그람과 OS 는 여전히 호스트에서 실행된다. 

Myricom 은 표준 TCP/IP 및 UDP/IP 대 면 부들과 흐름선식 (S 仕 eamlined)Myrinet API 를 제 
공한다. 

실례 6.8. Myrinet 련결된 LAN / 클라스터구성 

그림 6-26 에 서 탁상워 크스테 이 션들과 PC 들， in-cabinet 다중콤퓨터 클라스터 , 단일기 판 
다중처 리 기 클라스터 를 접 속하기 위 한 Myrinet LAN 의 구성 을 보여 준다. Myrinet LAN 은 
4 개의 Myrinet 교환기로 구성된다. 

다중를퓨터 cabinet 안에 서 2 개 의 교환기 는 하나의 SAN 을 형 성한다. 

망의 RAM 과 디스크배렬들은 Myrinet 에 소속된다. 

이 와 같이 Myrinet 는 클라스터 콤퓨터 응용들을 지 원할수 있는 큰 잠재 력 을 가지 고 있 
다. 그러나 모선의존호스트대면부들은 아직도 많은 종류의 호스트들을 Myrinet 에 련결하 
는데서 제한을 가진다. 
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25m 이 하의 동선케 블거 리 는 빛섬 유련결 이 리용가능하게 될 때 까지 SAN 과 같이 
Myrinet 의 리 용을 제한한다. 

6. 4. 4. HiPPI 와 Super HiPPI 

HiPPI 기 술은 서 로 다른 종류의 콤퓨터 들과 그것 의 주변 장치 들의 망화에 널 리 리용되 
였 다. HiPPI 는 초고속콤퓨터 들만을 위한것 이 아니 다. 아래 에 서 HiPPI 의 현 상태 와 앞으 
로의 전망에 대하여 평가한다. 


HiPPI 기 술 

고성능병 렬 대면부 (High-Perfonnance Parallel Interface, HiPPI) 는 서로 다른 판매 자들로부터 
구입하는 모든 대형를퓨터들과 초고속콤퓨터들의 대면부를 통일시킬 목적으로 1987 년에 
Los Alamos National Laboratory 이 공개 한 표준이 다. HiPPI 는 대 형 콤퓨터 와 초고속콤퓨터 공업 
에 짧은 거리의 체계 대 체계，체계 대 주변장치접속을 위한 고속 VO 토서 도입되였다. 

1993 년에 ANSIX3T9.3 위원회는 HiPPI 표준을 승인하였는데 이것은 물리 및 자료련결 
증을 포함한다. 

그외의 모든것은 사용자에게 달려 있다. 

HiPPI 는 800Mbps~1.6Gbps 의 속도로 자료를 전송하기 위한 간단한 점대점대면부이다. 
HiPPI 망제품들이 처음에 소개되 였을 때 마디당 30000$ 에서 대중화하기 에 는 가격 이 너 무 높았 
다. 기 술이 발전하고 가격 이 마디 당 4000$ 이 하로 낮아 졌을 때 외부의 초고속콤퓨터사용자들 
로부터 주의 가 돌려 지 기 시작하였다. 

더우기 ATM 과 빛섬유통로, Sonet 와의 HiPPI 호상운영성 이 실현되였다. 이와 같이 고 
속망화에서 HiPPI 의 역할은 아주 중요하며 필요하다. 

대면부와 케블요구 

기 본적 인 대 면부는 50bit 너 비 인데 32bit 는 자료이 고 18bit 는 조종신호이 다. 40ns 마다 
나온 32bit 단어는 전체적으로 800Mbps 의 속도를 보장한다. 


296 







물리명세서는 25m 까지의 거리에서 차페쌍꼬임선 50 쌍을 사용하도록 되여 있다. 이렇게 
작은 거 리는 작은 망들에서는 충분하지만 기본흐름 LAN 들에는 거의나 충분치 않다. 다중방 
식 빛섬 유케 블은 HiPPI 표준에서 빛섬 유확장기 (fiber extender) 를 사용하지 않고 300m 에서 동작 
한다. 더 먼 거리에 대하여 빛섬유확장기들은 다중방식에서는 10km 까지，한파모습에서는 
20km 까지 지원할수 있다. 간단한 HiPPI 통로들에서 두 통로 통신을 보장하기 위해서는 2 개의 
케블이 필요하다. 1.6Gbps 를 달성하기 위하여 4 개의 케블들이 완전중복으로 동작할수 있다. 

HiPPI 는 50 쌍의 UTP 를 사용하기 때 문에 공통기 업 망하부구조 (common enterprise 
network infrastructure) 들에서 찾아 볼수 있다. 이것은 ATM 과 빛섬유통로와 같은 다른 고 
속망들과 비 교되 는 명 백 한 부족점 으로 된 다. 

실례 6.9. 전형 적 인 인터네트망구성 

그림 6-27 에 서 설 명하는바와 같이 쌍방향 HiPPI 크로스바교환기 들은 여 러 가지 대 형 콤 
퓨터 들과 봉사기 들, 초고속콤퓨터 들사이 의 전용접 속을 실현하기 위 하여 개 발되 였 다. 

HiPPI-Serial 은 빛섬유로 10km 까지 접속할수 있다. 두개의 HiPPI 교환기들이 HiPPI 기 
간을 형성하기 위하여 련결된다. 교환기들이 직렬 (serial) 대면부들로 장비하지 않으면 긴 
련결을 위하여 HiPPI 확장기 가 필 요하다. 



TCP/IP 망들과의 인 터네 트망화는 RFC1347 로 주소화된 다. 

대 부분의 HiPPI 교환기 관매 자들은 TCP/IP 구동프로그람들도 제 공한다. 

그러 나 HiPPI 의 접 속지향속성 은 방송전송실 현의 절 충을 요구한다. 

교환기 들에 서 ATM LANE 와 같은 주소봉사기 를 사용하는가 아니 면 본래 대 로 방송요 
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구를 처리하는가는 해결해야 할 문제로 남아 있다. 

HiPPI 의 통로와 교환기 

HiPPI 통로들은 고속 V 0 또는 주변통로로서 소개되였다. 

그러 나 집 단내 방송은 지 원하지 않는다. 

상업기 계 들에 서 HiPPI 통로들과 HiPPI 교환기 들은 SGI PowerChallenge 봉사기 클라스터 
와 IBM390 대 형 를퓨터 들, Gray Y/MP, 090, T3DAT 犯체 계 들에 서 사용된다. 

빛섬유통신과 류사하게 HiPPI 는 낮은 지연과 동적 및 호상작용적 인 사용에는 적당 
치 않다. 

HiPPI 통로들 또는 HiPPI 교환기들의 일부 동작특징들을 아래에 개괄한다. 

일부는 존재하는것 이 고 일부는 앞으로의 목표이 다. 

• 초고속자료전송 지금 HiPPI 는 800Mbps 또는 1.6Gbps 의 속도로，단순 및 완전중 
복으로 구성될수 있다. 

• 매우 단순한 신호렬 기본적으로 Mbps 접속은 3 가지 통보문 즉 요청(원천이 접속 
을 요구한다.)，접속(목적지는 접속이 실현되 였음을 알린다.)，준비(목적지는 파케 
트흐름을 접수하기 위한 준비가 되여 있음을 알린다.)로 구성될수 있다. 

• 규약독립 성 HiPPI 통로들은 이 른바 생 (raw) HiPPI (아무런 웃층규약도 사용하지 
않는 프레 임 화규약으로 형 식 화된 자료)와 TCP/IP 데 타그람 (datagra_e) 들， IP I- 
3( 지능주변장치 대면 부)프레임 화된 자료를 처리 할수 있 다. IP 1-3 은 
RAID(redundant array of inexpensive disks) 장치 와 같은 주변장치 들을 공퓨터 에 접 
속하기 위하여 사용되 는 규약이 다. 따라서 HiPPI 는 이써네트와 FDDI, 고속자료 
기 억 및 검색 을 가지는 인터네트망화와 동등하게 적 응할수 있다. 

• 물리층흐름조종 HiPPI 는 서 로 다른 속도로 동작하는 장치 들사이 의 믿음직 하고 
효률적인 신용에 기초한 체계를 제공한다. 사실상 원천은 준비 (ready) 신호들의 
행로를 보존하고 목적지가 그것들을 처리할수 있을 때만 자료를 보낸다. 

• 련결지향회선교환 비 차단식회선교환기들은 여러개의 회화가 동시에 진행되도록 
한다. 그러하여 HiPPI 교환기들의 집 합대 역너 비는 800Mbps 또는 1.6Gbps 의 배수 
이고 포구당 대역너비는 포구수의 배수와 같다. 

• 동선과 빛섬유의 조화 HiPPI 는 짧은 거리에 50 쌍의 STP 들을 사용한다. 이것은 
구내 또는 지역에서 한파모습과 다중방식으로 동작한다. Sonet 는 먼거리통신에 
사용된다. 

HiPPI 규약 

HiPPI 규약은 표준들의 모임 에 의해 여 러층에 서 정 의 된다. HiPPI-PH 표준은 물리층 
에서 기구적 및 전기적, 신호적으로 단일한 점대점련결을 정의한다. 

HiPPI 는 단순한 규약이므로 완전중복련결은 반대방향의 다른 HiPPI 접속에 의해 달 
성된다. HiPPI-FP(Framing Protocol) 는 사용자정보의 매 파케트들의 형식과 내용(머려부포 
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함)을 서술한다. 

HiPPI-SC 는 많은 콤퓨터들이 자료를 공유할수 있게 하는 하나의 동작방법으로 개발 
되였다. 

이것은 여러개의 점대점접속들이 동시에 일어 나도록 할수 있는 교환기구를 설치하 
도록 요구한다. 

HiPPI-SC 는 임의 의 교환하드웨 어는 서 술하지 않고 사용되 는 장치 에 대 한 기 능적기 
구들만을 제공한다. 

HiPPI 를 다른 규약으로 넘 기기 위하여 다음과 같이 련결교갑화를 위한 3가지 표준들 
이 개 발되 였는데 표 6-5 에 개괄하였다. 

• HiPPI _ LE(link encapsulation) 는 IEEE802.LLC 의 머 리 부 (header) 들 의 Dl_Area 및 
D2_Area 의 시작에로의 넘기기를 제공한다. 

• HiPPI-FC(Fiber Channel) 는 빛섬 유통로제 품들을 HiPPI-FP 표준으로 넘 긴다. 

• HiPPI-IPI(disk & tape commands) 는 IPI-X 표준명 령 모임 들을 ffiPPI_FP 머 리 부들로 
넘 긴다. 이 표준은 IPI 표준들에 통합된다. 


SuperHiPPI 

최 근 SuperHiPPI 기술은 더 욱더 높은 지 연을 가지고 HiPPI 보다 8배 빠른 속도를 보장 
하기 위하여 개 발되 였 다. 

이 SuperHiPPI 기술은 일반적 인 HiPPI 사용자들의 일부 소원을 새롭게 하였다. 
SuperHiPPI 기술은 완전히 다른 실현을 제공하며 따라서 HiPPI 통로들과의 뒤쪽 호환성 
이 부족하다. 이것은 HiPPI 통로들이나 HiPPI 교환기 들에 대 한 갱 신의 새 로운 시 작을 암 
시한다. 


표 6-5 _ HiPPI 규약묶음조 


ffiPPI-LE 련결 교갑화 HiPPI-FC 

(IEEE802.2) (빛 섬 유통로규약들) 

HiPPI-IPI 

(IPI-3 명 령 모임 들) 

HiPPI-FP 프레 임 화규 약(파케 트형 식，파케 트머 리 부들) 

HiPPI-PH, 기구，전기, 신호 
(물리 층) 

HiPPI-SC, 교환기 조종 

(물리 장치 를 위한것 ) 

HiPPI-Serial 확장，빛섬유식 HiPPI-PH 10km 
확장기 (ANSI 표준은 아니 다. ) 



SGI 나 Los Alamos National Laboratory 는 다 25.6GB/S 보다 더 높은 HiPPI 교환기 들을 
만드는 HiPPI 기술을 연구 하였다. Washington D.C 에서 열 린 ACM 초고속콤퓨터 
94(supercomputing 94) 에 서 는 18마일의 다중방식 케 블로 구성 된 빛 섬 유 (al 卜 fiber) HiPPI 기 간 
과 16명의 충돌자들이 90Gbps 이상의 집 합대 역너 비를 구성할수 있다는것을 증명하였다. 
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6. 5. ATM 교환기와 망 

비동기전송방식 ( ATM ) 은 ATM Fornm (1991 년에 창립)과 ITU 표준들에서 정의된다. 

ATM 기 술과 세 포형 식， ATM 충돌을 ATM 교환기 들과 빛 섬 유케 블을 사용하는 인 터네 트 
화망의 실례와 함께 아래에 서술한다. 

ATM 망은 Telecom 협 회 들에 의 해 시 작되 였 으며 인 터 네 트기 간에 서 는 MAN 이 나 WAN 
으로 출현하였 다. 지 금 주요콤퓨터협 회 들은 인 터네 트나 LAN 지 원을 위한 자체 의 ATM 망 
화지원 을 가지 고 있 다. 

6.5.1. ATM 기술 

ATM 은 통신흐름을 짧은 고정 길 이 53 B 세포들로 토막화하는 매 체 독립정 보전송규약이 다. 

그 바탕기술은 6.1.3 에서 론의한 세포교환에 기초하고 있다. ATM 의 목표는 실시간 
(지 연에 예민한) 및 폭발자료(지 연에 예민하지 않은)전송능력을 하나의 단일망기술에 통 
합시 키 는것 이 다. 

ATM 은 광대역망응용들에서 더 큰 경제성과 유용성에 필요한 동적대역너비배정과 
고속교환을 제공한다. 

ATM 은 말단국들이 공통의 매체 를 공유하지 않는 교환구조를 채택하며 따라서 LAN 
과 WAN 의 요구들을 다 지 원한다. 

ATM 은 짧은 세 포들을 러 용하기때 문에 높은 속도를 가지 는 규소섬 유교환기 를 만들 
수 있게 한다. 


ATM 의 세포형식 

그림 6-28 에서 서술한바와 같이 긴 파케트는 ATM 망으로 전송되기전에 세포들로 쪼 
개져야 한다. 

수신단에 서 세 포들은 본래 의 파케 트형 태 를 재 생하도록 재조립 된 다. 첫 5 B 는 경 로정 
하기 를 위한 세 포머 리 부이다. 유효자료는 최 대 48 B 의 자료정 보를 포함한다. 작은 세 포들 
과 가상경로폭, 가상통로들의 사용은 ATM 세포교환기설계를 합리적이게 한다. 


교환기 재조립된 파케트 

I' ■ •끼 니 ' I I 

1) 세포1환의 개념 



세포 (53 B ) 

머리부 

정보 

일반조종흐름 

VCI/VPI 

마당 

유호자료지시기 

세포류실 
우선권 

머리부검사합 

유효자료 

4 b 

24 b 

2 b 

2 b 

8 b 

48 B 


L ) 세포의 형식 
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그림 6-28. ATM 세 포교환의 개념과 세포형식 














ATM 세 포들은 원천경 로정 하기 방법 (source routing scheme ) 또는 hop - by - hop 방법 을 사 
용하여 토정 을 정할수 있 다. 원천경 로정 하기 를 위하여 전체 경 로정 보는 세 포의 머 리 부에 
포함되여야 한다. 

그러 므로 원천경 로정 하기 에서 경 로기는 길 이의 제 한을 받는다. hop 경 로정 하기 에서는 
머리부가 hop 正)만을 요구하며 결과 경로에 대한 보다 융통성 있는 선택이 가능하다. 대 
부분의 ATM 교환기 들은 우에 서 보여 주는 세 포형 식 을 사용하는 hop - by - hop 경 로정 하기 방 
법을 선택하고 있다. 


세포교환기설계 

파케 트교환망의 전통적 인 사용을 떠 나 ATM 은 세 포교환망을 구성 하기 위한 새 로운 
표준을 제 공한다. 

세포교환망은 한개 망우에서 음성으로부터 화상，동화상, 자료에 이르기까지 모든 매 
체형태를 고속전송하도록 설계된다. ATM 은 표준통신규약들을 사용하는 현재의 LAN 들과 
MAN 들， WAN 들과 통합되 여 야 한다. ATM 세 포망들은 광대 역 및 다매 체 정 보를 전송하는 
데 사용되 였 다. 특히 ATM 는 집 단내 방송조작들을 효과적 으로 수행할수 있 어 야 한다. 

그림 6-29 에서 hop - 경 로정 하기방법 에 기초한 세포교환기설계의 개 념을 보여 준다. 


경로정하기표 



그 림 6-29. hop-by-hop 경 로정 하기 를 사용하는 ATM 세 포교환 


ATM 교환기 에 들어 가는 매 련결에서 도착하는 세포들의 가상경 로식 별자 UPI(virtual 
path indentifier ) 와 가상통로식 별 자 VCI(virtual channel indentifier ) 의 값들은 세 포가 지 나가 
야 할 경 로 ( path ) 와 통로를 유일 하게 결 정한다. 

새 로운 가상식 별자들은 나가는 련결의 세 포머 리 부에 배 치된다. 경 로정 하기표들은 가 
상경 로구성 절 차에 의해 초기 화된 다. 

ATM 교환기 에 들어 간후 세 포의 VPI 마당 ( x ) 은 경 로정 하기표로부터 입 력 자료를 선택 
하는데 사용된다. 

새로운 VPI 값 ( y ) 은 다음교환기로 가는 세포에 배치된다. 같은 가상경로우에서 두개 
호스트들은 세 포의 VCI 마당들을 리용하여 가상통로흐름의 무러 들을 구분함으로써 많은 
응용흐름들을 다중화할수 있다. 

ATM 의 속도 

지 금 ATM 망들은 25 Mbps 로부터 51,155, 622 Mbps 까지의 다양한 속도를 지 원한다. 속 
도가 낮을수록 ATM 교환기들과 사용된 련결들의 가격은 낮아 진다. ATM 의 속도는 앞으 


301 











로 더 높아 질것 이 다. 포구당 622 Mbps 를 가지는 FORE 체 계 ASX 1000 ATM 은 lOGbps 의 집 
합대역너비를 실현할수 있다. 

6. 5. 2. ATM 망대면부 

ATM 세포들은 2개 수준의 계층 ( two-level hierarchy ) 즉 가상경로와 가상회선에서 교 
환된다. 물리 적련결안에 여 러개의 가상경 로들이 상주할수 있다. 

매개 가상경로에는 1개이상의 가상회선이 존재할수 있다. 가상회선들은 호스트들에 접 
속하는 ATM 교환기 들에 의 해 인식 되 며 교환기 들사이 에 는 가상경 로가 사용된다. 때 문에 그 
림 6_30에서 서술하는바와 같이 사용자망대면부 ( User-Network Interface , UNI ) 와 망 대 망 
대면부 ( Network-Network Interface , NNI ) 가 정의된다. 



그림 6- 30. ATM 망의 사용자망대 면부 (UNI) 와 망 대 망 대 면부 (NNI) 

2개 수준의 교환계 층은 하드웨 어고장으로 일부 교환기 들이 가상경 로를 다시 정할 
때 우월성 을 가진다. 이 때 모든 관련가상회선들은 경 로기 들을 개 별적 으로 재 구성하지 
않고 자동적으로 다시 경로가 정해 진다. 

5 B 의 ATM 층머 리부는 그림 6-31 에 서 보여 주는바와 같이 UNI 와 NNI 에 서 서 로 
다른 형식을 가진다. 주요차이는 UNI 에는 일반흐름조종 (Generic Flow Control , GFC ) 4 
당이 존재하고 NNI 에는 더 큰 VPI 마당이 존재한다는데 있다. 

GFC 마당은 종단국을 확인하며 교환기는 가상회선이 충돌상태에 있으면 한개 세포를 
다른데로 먼저 통과시킨다. 


UMI 에서 ATM 총의 머리부 


GFC 
(4-bit) 

VPI 

(B-blt) 

VCl 

PT1 

O-bitj 

CLP 

(1-bit) 

HEC 

( a - bit ) 

NN (에서 ATM 충의 머리부 

VPI 

(12-bit) 

VCI 1 

(16-bil) 

! PT, 

(3<bit) 

CLP 

(1-bit) 

HEC 
(8-bit) 


일 반호롬조종 
가상경로식별자 
가상통로식별자 


PTI: 유효부하형태식별자 

CLP: 세포류실우선권 
HEC: 머리부오유검사 


그림 6-31. ATM 세 포들에 서 UNI 와 NNI 의 머 리 부형식 
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기 정 설정 은 모두 0이 다. 

세 포가 첫 번째로 도착하는 교환기 에 의 하여 기정 설정 이 다시 써 지 므로 끝 대 끝은 
무의 미하게 된 다. 

NNI 세 포들의 더 큰 VPI 마당에 의하여 교환기 들은 경 로정 하기 에 서 많은 경 로들을 리 
용할수 있다. 

ATM Forum 은 서 로 다른 판매 자들의 교환기 들을 사용할수 있게 하는 사설망 대 망 
대면부표준도 개발하였다. 

일부 ATM 교환기와 망제품들을 속도와 포구수 ， UNI 또는 NNI 의 지원에 따라 보면 
표 6-6 과 같다. 

FORE 체 계 의 ATM 교환기 와 련결 들을 리 용하여 LAN 기 간을 구성 하는 방법 은 후에 
보여 준다. 

6. 5. 3. ATM 구조의 4개 층들 

여 기 서 는 계 층화된 ATM 망파 OSI(Open Systems Interconnection ) 표준파의 대 응 ， ATM 
세포정보처리를 서술한다. 


표 6-6 __ 기가비트 ATM 교환기와 망들의 실례 


제품 

집합대역 너 비 

포구의 수 

UNI 와 

NNI 지원 

Bay Networks Centillion 

100 ATMspeed/155 

1.2Gbps 



Cisco Lights tream 190 

5Gbps, 

공유기억기차단 

64 

V3.0 과 V3.1 

DEC GIGAswitch/ATM 

3.6Gbps 

22 


FORE ASX-1000 

lOGbps, 비차단 

96 

완전 V3.0 

2230Nway 600 4 650 

5 Gbps, 비차단 

8 

V3.0 과 V3.1 


계층화된 ATM 모형 

개념적으로 ATM 망은 그림 6-32 과 같이 4개의 층으로 된 3차원모형으로 서술된다. 
물리층은 2개의 ATM 부분층 ( TC 와 PMD ) 으로 세 분화된다. ATM 층은 끝 대 끝 가상회선교 
환을 지 원하는 망층에 대 응된다. ATM 층은 접속지향이므로 임의의 응답기 구도 제 공하지 
않는다. 

ATM 적 응층은 CS 와 SAR 부분층으로 갈라 진다. 웃쪽 층들은 사용자판 ( plane ) 과 조종판 
( plane ) 에 가깝다. 세 번째 차원은 층과 판관리구조들을 보여 준다. 리론적으로 ATM 세포의 
재전송은 고도로 믿음직한 빛섬유망의 러용에 기초하고 있지 않았다. 오유처 리의 과제는 웃 
쪽의 층들에 남겨 둔다. 더우기 음성과 영상과 같은 실시간응용들에서는 전체 화상을 재전 
송하기보다 틀린 세포를 허용하는것이 더 좋다. 
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판관려 



그림 6-32. ATM 망의 구조 


대웅하는 osi 의 층들 

표 6-7 은 ATM 부분층들의 기 능과 ISO 가 제 안한 OSI 망표준의 7개 층과의 대 응을 
정 의한다. 흥미 있는 독자들은 ATM 과 ISO 표준을 상세 히 참고하면 된 다. 


표 6-7 _ ATM 층의 기능과 OSI 층과의 대응 


OSI 층 

ATM 층 

ATM 부분층 

거 능 

3/4 

AAL(ATM 

adaptation Layer) 

CS 

표준대면부제공 

SAR 

토막화와 재조립 

2/3 

ATM 


흐름조종，세포머러부의 생성/추출, 

가상회선/경로관려, 세포다중화/비 다중화 

2 

물리층 

TC 

세 포속도분리，머 리 부검 사합생 성 과 
비교, 세포의 생성，외피로 세포를 
씌 우기 (packing)/ 풀기 

1 

PMD 

bit 시간화，물러망접근 


세포의 형성 

나가는 세 포에 대 하여 ATM 층은 더 높은 층 AAL 로부터 48 B 의 유효자료를 받아서 5 B 
의 머 리부를 더한 다음 물리층으로 통과시 킨다. 들어 오는 통신흐름에 대 해서는 이와 곡 
반대이다. 이 세포형성과정을 그림 6-33 에서 설명한다. 

ATM 층은 같은 가상회선을 따라 도착한 세포들의 정확한 순서를 담보한다. 혼잡으로 
망이 세 포들을 잃 어 버 려 도 단일한 가상회 선으로 보낸 세 포들의 재 배렬은 허 용되 지 않는 
다. 서로 다른 가상회선으로 보낸 세포들에 대해서는. 이러한 담보가 없다. 

중간의 교환기가 일시적인 과부하로 한개의 세포를 잃어 버릴 때 전체 파케트가 파 
괴되 여 긴 지연이 생 긴다. 믿음직한 세포넘기 기는 ATM 층의 제 일 웃층에서 하여 야 한다. 
더구나 최 량적 인 세포크기는 서로 다른 사용자집 단들사이 에서 아직까지 토론중에 있다. 

ATM 을 지난 날에 는 주로 전화망기 술에 사용하였 다. 그러 나 더 작고 국부화된 망들 
에 서 ATM 기 술을 리용하는 경 향도 있 다. 


304 



























그림 6-33. 나가는 세포에서 응용유효자료의 련속적 인 ATM 층통과 


6. 5. 4. ATM 의 망간접속성 

여 러 가지 ATM 교환기 들과 련결들, 적 응기 들이 서 로 다른 망환경 에 사용될수 있다. 
실례 로 작업 실내의 PC 들과 워 크스테 이 션들，봉사기 들을 접속하기 위한 전용 ATM 교환기 
들을 구성 할수 있 다. 

ATM 교환기 는 LAN 기 간을 구성하거 나 유산의 LAN 들(이 써네 트나 통표고리 , FDDI 고 
리)에 접근하며 영상을 워크스테 이션의 클라스터나 인터네트접근을 가지는 인트라네트에 
배 포하기 위하여 사용할수 있 다. 

아래 에서 전용인터네 트봉사응용들을 제 공하는데서 분산다매체처 리를 위한 ATM 에 
기초한 인트라네트의 설계를 보여 준다. 

실례 6.10. Pearl 콜라스터 : HKU 의 ATM 에 기초한 다중콤퓨터클라스터 

홍콩대 학 (Hong Kong University , HKU ) 에 ATM 에 기초한 워크스테 이션들파 봉사기들 
의 클라스터가 구성되였다. 

그림 6-34 에서 ATM 망의 구성을 보여 준다. 

클라스터는 5 Gbps 의 집 합대 역너 비를 가지는 호상접속된 3 개의 ATM 교환기주변에 구 
성된 다. 

155 Mbps 다중방식섬 유를 사용하는 망케 블이 6 개 의 SMP 봉사기 들과 40 개 이상의 Sun 
및 SGI 워크스테이션들， PC 들을 호상접속하는데 사용되며 이 모두는 같은 건물안에 위치한 
다. 클라스터의 모든 호스트들은 HARNET(Hong Kong Academic Research Network ) 와 
WWW 자원들에 접 근하기 위한 인 터 네 트기 간을 거 쳐 밖의 자원에 접 근할수 있 다. 

ATM 련결 과 비 ATM 련결 이 다 사용된 다. 모든 ATM 비 호환호스트들은 ATM 적 웅기 
기판들과 련결되여 야 한다. 서로 다른 속도의 외부련결들이 Pearl 클라스터에로 또는 Pearl 
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클라스터로부터 접속된다. 

그러 나 내 면적 으로 클라스터내 에서는 현재의 이씨네 트와 FDDI 접속외 에 155 Mbps 의 
빛 섬 유케 블만이 사용된 다. 대 부분의 호스트들은 ATM 기 간교환기 ( ASX -1000, ASX -200 BX ) 
들에 접속된다. 

이씨네트에 련결된 일부 호스트들은 이씨네트집선기 (Power Hub 7000) 를 통하여 간접 
적으로 접속된다. 
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그림 6-34. Pearl 콜라스터 : 분산다매체 및 메 타콤퓨터응용전용인 
홍콩대 학의 봉사기 들/워 크스테 이 션들의 ATM 들라스터 

















LAX -20 LAN 접 근교환기 는 이써 네 트와 FDDI 고리 를 접속한다. ATM 교환기, 155 Mbps 빛 
섬 유련결 들, 적 응기 기 판들은 HKU 클라스터 를 구성 하는데 사용되 는 기 본적 인 구성 요소들 
이다. 


Pearl 콜라스터의 응용 

Pearl 클라스터 의 능력 에 기 초한 연구과제 에 는 특수한 클라스터 의 구조적 개 발, 분산다 
매체처 리，메 타콤퓨터리용，금융수자서고 등이 포함된다. 

(1) Pearl 클라스터 의 일부 부하공유능력 (Load Sharing Facility , LSF ) 은 금융수자서 고 
(Financial Digital library , FDL ) 응용들에서 단일체계 영상 (Single System Image , SSI ) 
의 조작들을 실현하는데 응용된다. 

(2) 13 장 에 서 론의 하는 통보문 넘 기 기 대 면 부 ( MPI ) 와 병 렬 가상기 계 (Parallel Virtual 
Machine , PVM ) 표준들외 에 능동통보문 (active message ) 들과 자바가상기 계 (Java 
Virtual Machine , JYM ) 대 면부들을 사용하는 고속통보문넘 기 기를 위한 MPI 자바대 
면부 (_ 의 개발. 

(3) 클라스터는 Web 자원으로부터 영 어와 중어문서들 또는 다매체파일에 대 한 고속 
정 보검 색 을 위한 두 나라 말을 쓰는 WWW 색 인과 람색 엔진으로 설계 된다. 

(4) 클라스터 성 능검 사를 위 한 TPC(Transaction Processing Council ) 성 능평 가기 준들의 
확장과 새 로운 분산다매 체성능평 가기 준의 생성 . 

이 TCP 및 DMS 성 능평 가기 준들은 상업 적응용들에 서 클라스터화된 초고속 
봉사기의 사용능력을 평가하도록 설계된다. 

특정령역과 부족점 

ATM 망들은 수자전화와 의료형태，업무처리，요청텔레비존과 분산다매체처리에 광범 
히 사용할수 있는 능력을 가지고 있다. 

원격통신공업은 많은 광대 역 ISDN(Integrated Services Digital Network ) 봉사들을 실현하 
는데 이 미 ATM 을 선택하였 다. 

ATM 의 미래는 LAN 및 WAN 기술과 통합하는 능력에 달려 있다. 부정적인 측면에서 
ATM 망들은 공동으로 수집한 세 포관리 와 망규약들이 부족하다. 

전화협회 와 를퓨터공업 은 지금 서 로 다른 표준들을 적용하고 있다. 

ATM 협회는 표준들을 단일화하는것을 목적으로 하는 국제적인 조직이다. 

실례로 ATM 망은 자료련결층규약을 제공하므로 세포나 파케트의 믿음직한 넘기기를 
담보할수 있다. 

콤퓨터 와 다매 체，원격 통신공업 이 같은 ATM 표준들의 모임 에 동의하지 않으면 이 부 
족점 들은 ATM 기 술의 리 득을 릉가할수 있 다. 지 어 ATM 은 광대역 또는 다매 체 지향의 
MAN 들과 WAN 들，그리 고 지 역 들의 인 터네 트화에 서 도 자기 의 유용성 을 증명하였 다. 기 
가비 트이써네 트와 다른 낮은 가격 의 LAN 기 술들보다 높은 ATM 의 가격 은 LAN 들에 서 
ATM 의 광범한 사용을 제 한한다. 
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6. 6. 확대가능한 일관성대면부 

우에서 론의 한 기 가비트 및 ATM 망들은 한가지 공통점을 가진다. 즉 이것들은 모두 
마디의 I / O 모선에 접 속되 며(그림 6-2 를 참고) 통신은 콤퓨터마디 들사이 에 통보문을 보 
냄으로써 진행된다. Gustavson 과 Li [289] 는 이러한 형태의 I 八)통신이 모선에 기초한 
SMP 의 공유기억 기 통신보다 렬 등하다는것 을 지 적하였 다. 

공유기 억 통신 에 서 통신의 하나의 처 려 기 는 store 지 령 을 수행 하고 다른 처 리 기 는 load 
지령을 수행하는것에 지나지 않으므로 낮은 지연을 가진다. I/O 통신에서는 수백수천의 
지 령 들이 수행 되 여 야 한다. 더 우기 I / O 통신 이 모선에 기 초한 SMP 의 하드웨 어 에 의하여 
생성되는 캐쉬일관성정보의 우월성을 가지기는 힘들다. 

이러한 원인들로 하여 고성능망은 기억기모선(국부모선)에 대면부로 접속되여야 한 
다. 전통적인 망들은 모선에 비하여 2가지 주요우점을 가진다. 

• 일반적 으로 망들은 표준이고 상대 적 으로 견고하지 만 기 억 기 모선은 그렇 지 않다. 
이써네 트는 10년이 상 표준화되 였으며 오늘 더 널 리 사용되 고 있다. 그러 나 기 억 
모선은 새로운 처리기가 나오는 18달마다 변한다. 

• 전통적 인 망들은 수십，수백 메터 로 공간확대 가능하지 만 기 억 모선은 겨 우 lm 까지 
확장할수 있다. 짧은 길이는 SMP 체계가 지원할수 있는 처리기의 수를 제한한다. 
모선의 우월성을 유지하면서 전통적인 망의 공간확대가능성을 가지는 표준적인 
호상접 속구조를 설계하는것 이 가능하겠는가? 

그 대 답은 IEEE / ANSI 의 표준 1596-1992 이 다. 

즉 확대가능일관성대면부 (Scalable Coherence Interface , SCI ) 는 틀에 박힌 뒤 판 
( backplane ) 모선을 완전 2중점대 점호상접 속구조로 확장함으로써 분산공유기억기의 일관성 
캐쉬형태를 제공한다. SCI 는 풍부한 규약이다(기본명세서는 248페지로서 길다.). 

아래에서는 SCI 가 모선 즉 기본적인 자료전송규약으로부터 어떻게 발전되며 캐쉬밀 
착을 어떻게 강화하는가를 론의한다. SCI 체계실현의 실례는 8장에서 론의한다. 

6. 6. 1 • SCI 호상접속 

SCI 는 낮은 지 연 ( lifi 이 하)과 높은 대 역너 비 (8 GB / S 까지)의 점대점호상접속을 제공하도 
록 설계된다. 완전히 개발되면 SCI 는 64 k 개까지의 마디들을 접속할수 있다. 가장 최근의 
SCI 표준 (IEEE 1596-1996) 은 250 MB / S 로부터 8 GB / s 까지 의 대 역 너 비 를 기 록하고 있 다. 
SCI 련결들은 빛섬유케블은 물론 동선으로도 실현될수 있다. 대면부소편은 CMOS 와 
BiCMOS , GaAs 기술로 실현한다. 

SCI 의 캐쉬일관성특징 은 련결된 SCI 모둘들의 목록으로 실현된다. 매 처 리 기 마디 
는 하나의 SCI 모둘에 소속된다. 처리기가 자기의 캐쉬를 갱신하면 그 캐쉬의 상태는 같 
은 캐쉬행을 공유하는 모든 SCI 모둘들을 따라 전파된다. 분산일관성캐쉬들에 대 하여 련 
결된 이 목록은 확대가능하다. 왜냐하면 더 많은 SCI 모둘들을 련결된 목록을 따라 삽 
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입하여 큰 체계를 창조할수 있기때문이다. 


호상접속위상 

SCI 는 마디 들과 외 부호상접 속사이의 대 면부를 정 의한다. 최 초의 목표는 련결 당 
lGB/s 의 대 역 너 비 를 가진 16 bit 련결 들을 사용하는것 이 였 다. 

결 과 뒤 쪽 판 ( backplane ) 모선들은 단일 방향점 대 점 련결 들로 교체 되 였 다. 

SCI 호상접속들은 일반적으로 위상독립 이 다. 

매 SCI 마디는 련결된 기 억기와 I/O 장치들을 가지는 처 리기 일수 있다. SCI 호상접속 
은 임의의 위상도 가능하다. 매 마디는 SCI 고리들 또는 크로스바로부터 접속되거나 SCI 
고리들 또는 크로스바에로 접속되는 하나의 입력련결과 하나의 출력련결을 자진다. 
SCI 련결의 대 역너 비는 련결과 대 면부를 실현하기 위하여 선택한 물리적표준에 의존한다. 
SCI 환경에서 방송과 모선에 기초한 작용의 개념은 포기되였다. 

일관성규약들은 요청자에 의해 시작되고 응답자에 의해 완성되는 점대점작용에 기초 
한다. 고리호상접속은 마디들사이의 가장 단순한 귀환접속들을 제공한다. 

모선으로부터 SCI 고리로 

그림 6-35 에 서 는 모선호상접속으로부터 확대 되 는 전형 적 인 SCI 고리 를 보여 준다. 
SCI 를 도입하게 된 동기 를 리해 하기 위하여 확대 가능한 체 계를 구성할 때 모선에서 제 
기되는 3가지 문제들을 살펴 볼 필요가 있다. 



그림 6-35. 수자모선으로부터 SCI 고리의 발전 


• 신호화문제 모선전송선들은 여 러 가지 처 리 기와 기 억기, I/O 장치 들을 접 속하는 
분기들을 가지고 있기때문에 완전하지 않다. 이것은 반사와 잡음 특히 모선구동 
장치들이 많은 전류를 요구하는것과 관련된다. 

• 병 목문제 모선은 한번 에 하나의 송신기만이 사용할수 있는 공유매 체 이 다. 분산 
작용규약들이 조금 도와 주지만 모선중계와 주소화는 항상 매 작용에 대하여 진 
행되여야 한다. 

• 크기문제 신호화의 어려움으로 하여 고속모선은 짧아야 한다. 짧은 모선은 접속 
될수 있는 장치들의 수를 제한한다. 

SCI 는 모선과 관련 한 이 상의 3가지 문제 들을 극복하기 위하여 그림 6-35 에 서 보여 
주는바와 같이 다음과 같은 기 술들을 채 택한다. 

• 점 대 점 련결 SCI 는 여 러 가지 처 리 기 와 기 억 기 , I/O 장치 들을 마디 로 간주한다. 
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그리고 하나의 송신마디로부터 수신마디에로 서로 다른 신호화를 가지는 점대점 
련결을 사용한다. 접속분기들이 더는 없으며 중요하게는 반사/소음문제가 크게 
완화되여 신호화속도가 크게 늘어 나도록 한다. SCI 는 처리기들과 기억기， I / O 장 
치들을 포함하는 더 복잡한 마디들을 배제하지 않는다. 

• 한방향고러 련결들은 련속적으로 그리고 한 방향으로 동작한다. 이것은 구동기 
전류를 일정하게 하여 잡음을 더욱 줄이게 한다. 매 마디는 적어도 하나의 입력 
련결과 하나의 출력 련결을 가져 야 하므로 한방향고리는 가장 간단한 위상이 다. 

• 병행 한번에 하나의 작용만이 사용할수 있는 모선과 달러 여러 마디들이 SCI 고 
리에로 파케트들을 동시에 주입하고 추출할수 있다. 

고리로부터 그물에로 

2차원그물과 같은 다른 위상들은 그림 6-36 에서 설명하는것과 같이 여 러개의 고리들 
로 구성될수 있다. 대면부모둘들은 고리들로 된 그물에 다리를 놓는다. SCI 호상접속의 
대역너비와 중계，주소화기구들은 뒤쪽 판 모선 (backplane bus ) 들을 크게 롱가할것이 예 
상된다. SCI 의 기본적인 우월성은 그것의 확대가능성에 있다. 



그림 6-36. 여 러 SCI 고리 로 된 2 차원그물 


6. 6. 2. 실 현 문 제 

SCI 표준은 많은 콤퓨터제작자들로부터 지지를 밤았다. 주목할만한 실례로서 HP/Gray 
와 IBM , Data General , Sequent , SGFConvex 들을 들수 있다. 

SCI 구조의 대부분의 응용들은 8장에서 고찰한다. 

이 부분에서 련결형 식 과 파케 트형 식，마디대 면부들, SCI 박자화와 같은 일부 SCI 실현 
사항들을 고찰한다. 마지막에 SCI 실현의 실례를 보여 준다. 

련결과 파케트형식 

SCI 는 파케트에 기초한 분산작용규약들을 사용한다. SCI 호상접속에 사용된 SCI 련결 
과 파케트들의 형식을 그림 6-37 에 주었다. 
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그림 6-37. SCI 련결과 파케 트형 식 들 


SCI 마디 대 면부 

마디대 면부는 그림 6-38 에 상세 히 제 시 한다. SCI 련결 은 1개 의 박자비 트，1개 의 기 발 
비 트, 16개 의 자료비 트를 가지 는 18개 비 트폭이 다. 그러한 18개 비 트를 기 호라고 부론다. 
파케 트는 14 B 의 머 리 부와 오유처 리 를 위 한 2 B 의 CRC , 0 또는 16, 64, 256 B 의 자료를 
포함한다. 
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그림 6-38. 단순화된 SCI 마디대면부의 구조 


매 SCI 박자주기 에 한개 의 파케트기호 (2 B ) 가 전송될 수 있 다. 박자와 기 발비 트는 하 
드웨어 가 생 성한다. 그리하여 파케 트는 8 또는 16，40, 136개 의 기 호들을 가질 수 있 다. 
원천마디가 목적마디로부터 자료를 읽으러 한다고 하자. 

원천(요청기 라고 한다.)은 요청파케 트를 요청 송신대 기렬을 거 처 SCI 고리 에 주입한다. 
요청 의 머 리부는 주소와 명 령, 다른 정 보를 포함한다. 이 파케 트는 목적지마디 에 도착할 
때까지 고리를 따라 마디를 차례로 통과한다. 

어 떤 마디 가 목적 지 라는것 을 어 떻 게 알수 있 겠 는가? 

마디 의 스트립퍼 ( Stripper ) 는 들어 오는 파케 트들속에 서 주소가 그 마디 의 正)와 일 치 
하는것 을 꺼 내 서 수신대 기 렬 들중의 하나에 넣 는다. 목적 마디 (응답기 라고 한다.)는 읽 기 요 
청을 해석한후 자료를 꺼 내서 응답파케트를 형성한 다음 그것을 SCI 고리 에 주입한다. 
다음 응답파케 트는 요청파케 트와 꼭같이 고리 를 거 처 원천마디 로 간다. 

파케트가 목적지가 아닌 마디(말하자면 마디 A ) 에 도착하면 다음마디로 가는 SCI 출 
력 련결 로 곧바로 간다. 그러 나 련결 이 마디 A 자체 의 자료전송에 의해 점 유되 여 있 을수 
있 다. 그러 면 파케 트는 대 피 FIFO 에 넣 어 지 며 출력련결 이 리용가능하게 될 때 까지 기 다 
린다. 
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SCI 박자화 

SCI 는 론리적으로 동기적 이며 모든 련결 및 대면부회 로들은 같은 박자(보통 500 MHz ) 
로 구동된 다. 서 로 다른 마디 가 다양한 박자들을 처 리 하기 위하여 수신마디 는 파케 트틀 
에 넘기기기 호들을 삽입 및 삭제하는데 신축성완충기를 사용한다. 

송신마디는 전송할 파케트가 없을 때 수신동기화를 유지 하기 위하여 넘 기기기 호들을 
보낸다. 후에 송신마디 가 파케 트를 보낼 때 는 이써네 트에서 와 같이 먼저 동기 화서문을 
보내지 않아도 된다. 

SCI 통신규약은 망의 공정한 사용을 담보하기 위하여 혼잡과 교착을 피 하는데 주의 
를 돌렸다. 한가지 실례는 요청과 응답에 분할된 송신/수신 대기렬을 사용하는것이다. 
분할된 대기렬들이 없으면 련속적인 요청들이 응답의 송신을 억제하여 혼잡에 빠지게 
된 다. 

실 례 6.11. Data General SCI 접 속다중봉사기 클라스터 

Data General SCI 다중처 리 기 구조를 그림 6_39에 제 시 한다. 2개 의 SCI 고리 들이 4개 의 
SMP 봉사기마디 들을 호상접 속하는데 사용된 다. 
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그림 6-39. 2 중 SCI 고려 들을 가지 는 자료일 반 CC-NUMA 콜라스터 


매 봉사기 마디는 4 GB 의 국부기억기를 가지는 4개의 Intel 의 상품 Pentium Pro 
SHV(standard high volume ) 처리기를 가진다. 2중 SCI 고리들은 8개까지의 SHV 마디들을 지 
원하도록 총 lGB/s 의 대역너비를 계공한다. 이 클라스터는 확대가능한 자료기지응용들 
을 위 한 대 규모기 업봉사기 를 구성 하기 위하여 설계 되 였 다. 모든 분산기 억기들은 캐 쉬일 
관성 NUMA 모형 에 따라 전 역 일 관성 기 억 기 (Global Coherent Memory , GCM ) 를 형 성 할수 
있 다. Data General SCI 설 계 는 총 32 GB 의 DSM 을 가지 는 8개 까지 의 SHV 봉사기 마디 들을 
지 원할수 있 다. 빛 섬 유통표고리 는 공유디 스크렬 들을 집선기교환기 를 거 쳐 모든 봉사기 
마디들에 접속하는데 사용된다. 

이 체계는 분산일관성캐쉬들을 장려하여 CC-NUMA 구조와 SCI 호상접속적응기를 지 
원하는 DG/UX Unix 조작체 계 속성 들을 개 발한다. 

체계는 16개의 Pentium Pro 처리기로 된 4개의 SHV 마디들에 OLTP 와 같은 작업부하 
를 줄 때 초당 14000작용의 속도를 가진다. 이것은 상품처 러기들과 공유기억기，열린 
SCI 구조를 가지는 SMP 봉사기설계의 전형적 인 실례 이다. 
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6. 6. 3. SCI 일관성규약 

SCI 에 사용된 캐쉬일관성규약들은 등록부 ( directory ) 에 기 초한다. 공유목록은 참조를 
위하여 등록부들을 하나로 련쇄 시 키 는데 사용된 다. 

공유목록구조 

SCI 에 서 공유목록들은 캐쉬일관성 의 사용을 위해 련쇄된 등록부들을 구성하는데 사 
용된다. 공유목록들의 길이에는 한계가 없다. 공유목록들은 동적으로 창조되고 다듬어 
지며 파괴된다. 

매 개 일관성캐쉬 블로크는 블로크를 공유하는 처 리 기들의 목록에 들어 간다. 

공유처 리 기 들사이 의 통신은 그림 6-40 에 서 와 같이 공유기 억 기 조종기 에 의 해 지 원된다. 

처리기들은 국부적으로 캐쉬화된 자료를 위하여 일관성규약들을 우회하는 선택도 
가진다. SCI 는 등록부들을 분산시킴으로써 중앙등록부의 사용으로 인한 확장제한을 
피 한다. 

다른 블 로크들은 국부적으로 캐쉬되며 일관성규약에 맞지 않는다. 모든 블 로크 
주소에 대하여 기억기와 캐쉬의 입력자료들은 공유목록에서 첫번째 처리기(머리)를 식 
별하며 이 전의 마디 와 다음의 마디 들을 련결하는데 리용되 는 추가적 인 꼬리비 트들을 
가진 다. 

매 련결에서 2중화살로 보여 준 앞쪽 및 뒤쪽 지시 자를 가지는 2중련결목록들은 공 
유목록들안의 처 리 기들사이 에서 유지된다. 비 일관성의 복사는 페지수준의 조종에 의해 
일관성 으로 만들수도 있 다. 그러 나 그러한 더 높은 수준의 쏘프트웨 어일 관성 규약은 공개 
된 SCI 표준의 범위를 벗어 난다. 뒤쪽 지시자들은 련결된 목록의 중간에서 입력자료들 
에 대한 독립적인 삭제를 지원한다. 


처러기 



그림 6-40. 분산된 등록부들을 가지는 SCI 캐쉬일관성 규약 


공유목록창조 

공유목록의 상태 는 기 억기의 상태 와 목록입 력 자료들의 상태 에 의해 결정된다. 

보통 공유기억기는 홈상태(캐쉬되지 않은 상태)에 있거나 캐쉬(공유목록)상태에 있다. 
공유목록의 입 력 자료들은 다중입 력 자료공유목록에 서의 입 력 자료위 치 를 서 술하는데 목록 
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에서 입 력 자료만을 식 별 하거 나 clean 이 나 dirty , valid , stale 과 같은 입 력 자료의 캐 쉬 속성 들 
을 서술한다. 

머 러 처 리기는 목록관리의 책 임을 진다. 기 억기와 입 력 자료상태들의 안정되고 합리적 인 
결합은 캐쉬되지 않은 자료와 여러가지 위치의 깨끗한 또는 불결한 자료，캐쉬쓰기가능 또 
는 변질된 자료를 서술할수 있다. 기억기는 초기에 홈상태에 있으며 모든 패쉬복사가 타 
당치 않다. 공유목록창조는 입 력 자료가 비타당에서 미정상태 로 변화되는 캐쉬 에서 시 작한 
다. 

처리기로부터 기억기조종기로 캐쉬읽기작용이 명령 되면 기억기상태는 캐 쉬 되지 않는 
상태 에서 캐쉬된 상태로 변화되여 요청된 자료가 돌려 진다. 그다음 요청 자의 캐쉬입력자 
료상태 는 미 정 상태 에 서 깨 곳한 상태 ( only-clean state ) 로 변한다. 여 러 요청 들 이 동시 에 생 
성될수 있지만 그것들은 기억기조종기에 의해 순차적으로 처리된다. 

공유목록갱 신 

다음의 기억기접근을 위하여 기억기상태는 캐쉬된다. 공유목록의 캐쉬머리는 불결한 
자료를 가질수 있다. 새 요청자(캐쉬 시는 처음에 기억기에 자기의 캐쉬읽기작용을 명 
령하지 만 요청한 자료대 신에 캐 쉬 B 에 로의 지 시 자를 수신한다. 

두번째 캐 쉬 대 캐 쉬작용은 캐 쉬 A 에 서 캐 쉬 요로 명 령 된 다. 다음 캐 쉬 표는 자기 의 뒤 
쪽 지시기를 캐쉬 A 로 설정하고 요청한 자료를 되돌린다. 임의의 공유목록입력자료는 목록 
에서 자체로 지울수 있다. 그러나 가능한 혼잡을 피하기 위하여 새로운 공유목록입력자료 
들의 추가는 선 입 력 선출력 으로 수행 되 여 야 한다. 

공유목록의 머 리는 독점적 인 입 력 자료를 얻 기 위하여 다른 입 력 자료들을 지우는 권 
한을 가진다. 다른것들은 새 로운 목록머 리부로서 다시 넣을수 있다. 지우기는 순차로 
수행 된다. 련쇄 된 등록부일관성규약들은 작용들이 없어 질 때 불결한 자료들이 절대 로 
지워 지지 않도록 한다. 


6. 7. 망기술들의 비교 

여기서는 앞부분들에서 고찰한 여러가지 망기술들을 비교한다. 먼저 망구조와 케블 
매체, 규약표준들을 비교한다. 그다음 속도와 케블거리, 대표적인 응용들에서의 상대적 
인 성능들을 비교한다. 

6. 7. 1 • 표준망들과 전망 

망의 구조들과 표준들, 앞으로의 전망을 아래 에 제시 하였다. 

망표준들 

표 6-8 에 서 는 매 체공유구조와 교환식 구조에 따라 망을 분류한다. 
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표 6-8 __ 망구조와 케 B 매제, 표준들 


기 

술 

기 가비 트 

이 써 네 S. 

HiPPI 

빛 섬유통로 

FDDI 

SCI 

ATM 

Myrinet 

구 

조 

매 체 공유, 

교환식 

교환식 

매체 공유， 

교환식 

매체 

공유 

매체 

공유 

교환식 

교환식 

매체 

형래 

UTP, 동축 

케블, 빛섬유 

빛 섬유, 
50쌍 STP 

STP, 동축 
케블，빛섬유 

빛 섬유， 
동선 

STP, 

빛섬유 

UTP, STP, 

빛섬유 

전기적접속， 

판빛섬유 

표 

준 

화 

단 

체 

ffiEE802.3z, 

Gigabit 이써네 트 

Alliance 

ANSI 

X3.183, 

X3.210, 

X3.218, 

X3.222 

ANSI X3T11 

ANSI 

X3T9.5 

IEEE 

1595-1992 

ATM, Forum, 

EETF ITU- 

TSS 

Myricom 

UTP: 비 차페 쌍꼬임 선, STP: 차페 쌍꼬임 선 


케 블매 체 는 동선 과 빛섬 유케 블 이 다. 규 약들과 표준들은 ANSI 나 IEEE , Alliance , 
Forum 과 일치된다. 

앞으로의 전망 

고속이써네 트와 기 가비 트이써네 트는 잘 확립된 이써네 트표준과의 뒤쪽 호환성 으로 
하여 LAN 과 인트라네 트시 장을 지 배하는 가장 높은 능력 을 가지 고 있 다. ATM 기 술은 원격 
통신공업 에 의 해 힘들게 유지되 였고 아직까지 유지되고 있다 . ATM 은 특히 인 터 네 트망화와 
인터네 트，다매 체응용들에 적 합하다. 앞으로 ATM 제 품의 생 산원가가 낮아 지 면 MAN 과 
LAN 령역 에 침 투할수 있 다. 

MAN 과 WAN 응용들에 서 ATM 과 FDDI 는 기 본적 인 후보자들이 다. lOBaseT 이 써 네 트와 
빛섬 유 통로, HiPPI 는 캐블거 리상에서 다음자리를 차지 한다. ATM 기술의 LAN 응용에 로 의 진 
출은 이써네트제품들보다 높은 가격으로 하여 제한된다. 

오늘 대부분의 ATM 망틀은 25 Mbps ~155 Mbps 의 낮은 속도에 있다. 

원인은 ATM 련결들과 교환기들, 적응기들의 값을 더 낮춘데 있다. 실례로 다중방식빛 
섬유를 가지는 622 Mbps ATM 망의 설비가격은 포구당 6600$ 로서 1996 년의 교환식고속이써 
네 트(포구당 785$) 보다 8.4 배 더 높다. ATM 과 기 가비 트이써네 트의 더 높은 부가원가는 
그것 들의 앞으로의 장성 을 제 한할것 이 다. 

SCI 와 HiPPI , Myrinet , 기 가비 트이써네 트, 빛 섬 유통로는 모두 Gbps 의 SAN 과 LAN , 클 
라스터응용들을 위한 흘륭한 후보자들이 다. 특별 한 체 계호상접 속의 선택 은 가격/성 능의 
절충에 따라 결정된다. 일 반적 인 경 향은 망들을 매 체공유의 사용으로부터 교환식구조로 
갱신하는것이다. 빛섬유케블은 높은 속도뿐아니라 먼 거리로 하여 전망이 좋다. 최 
종적 인 선택 은 흔히 성 능보다는 오히 려 예 산에 의해 결정된다. 
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6. 7. 2. 망의 성능과 응용 

아래 에서 주요망기술들의 대 역너 비(속도)와 지 연，케블거 리를 비교한다. 이 기술들은 
클라스터들 또는 확대가능한 체계들을 구성하는데 리용되였다. 주어 진 모든 수값들은 
Mbps 또는 Gbps 에 서 의 가장 빠른 속도에 대 응한다. 

동선 (UTP 또는 STP ) 을 리용하거 나 한파모습 또는 다중방식 의 빛 섬 유케 블을 사용하 
는데서 가장 먼 거리는 m 또는 km 로 표현된다. 표에 기입된 값들은 망기술이 급속히 변 
하고 있으므로 앞으로 변화된다. 표 6-9 는 1997년까지 공개된 망의 속도와 거리성능을 
개괄하고 있다. 

성능스펙트르 

미 래의 망들에서 기 가비 트속도는 초보적 인 요구로 될것 이 다. 이것 은 인터네 트와 인 
트라네 트, 다매 체，상업응용들에 서 훨씬 더 높은 대 역 너 비 에 대 한 요구가 늘어 나기 때 문 
이 다. 다중콤퓨터 의 클라스터 들 또는 확대 가능한 다중처 러기 들에 서 상업망의 사용은 급 
속히 늘어 났다. 앞으로 테 라 flop / s 의 콤퓨터 체 계 들을 지 원하기 위하여 테 라 bit / s 의 망들 
이 필요하다. 


표 6-9 _ 망성능과 케블거리 


기술 

대역너비 

동선거 리 

한파모습 및 

섬유거리 

다중방식빛섬유 

거리 

기가비트 
이써 네트 

lGbps 

25-100m 

2km 

500m 

HiPPI 

800Mbps, 1.6,3-2Gbps,Sup 
erHiPPI 에서는 6.4Gbps 

25m 

빛섬유확장기로 

20km 

직 접련결 300m, 
확장기로 10km 

빛섬유 

통로 

100,200,400,800Mbps, 

l,2,4Gbps 

100Mbps 에 서 

50m 

10km 

200Mbps 에 서 

2km 

FDDI 

100Mbps,200Mbps 

100m 

60km 

2부터 200km 

까지 

100 

Base-T 

100Mbps 

100m 

20km 

반2중에 서 
412m, 완전2중 

에 서 2km 

100VG- 

AnyLAN 

100Mbps 

150m 

2km 

직경 4km 

ATM 

25Mbps 부 터 

51,155,622Mbps 까지 

인터네트망화접속을 위한 반복기 또는 빛섬유확장기 
사용에 따르는 가변거러 

SCI 

800Mbps 부터 

8Gbps 까지 

10m 

경험에 의해 100m 이상 

Myrinet 

1.28Gbps 

25m 

알려 지지 않음 50m 
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기 가비 트모선/교환상 접 속들은 많은 상업봉사기 들과 대 형 콤퓨터 들, 클라스터 들, MPP 
들에 서 출현하였 다. 기 가비 트속도는 SCI 와 HiPPI , 빛 섬 유통로, Myrinet , 기 가비 트이 써네 트 
기술로 구성된 망들에서 실현된다. 

상업 ATM 과 FDDI , 고속이 써 네 트, IsoEnet , 이 써 네 트망제 품들은 경 제 적 인 리 유로 하여 
아직 10 Mbps 에서 100 또는 622 Mbps 까지의 낮은 속도범위로 제한된다. SAN 과 LAN 응용 
에는 모선과 교환기, 망기술들모두가 적합하다. 

특수한 망의 선택은 주어 진 응용에 대한 가격/성능비의 설정에 의존한다. 

접 속경 로를 설 정 하는데 서 지 연은 거 의 쏘프트웨 어 부가처 리 로 인한것 이 며 교환기 들과 
망들을 거치는 경로정하기통보문들에서의 하드웨어지연은 없다. 표 6-9 에 기입된 수값들 
은 망기술이 빨리 개선되므로 앞으로 변할수 있다. 

웅용능력 

우의 고찰에 기초하여 주요망기술들의 응용능력을 명백히 한다. 

• 빛섬유통로는 기억과 망화，이질의 호스트들과 주변장치들사이의 자료전송을 위 
한 여 러 가지 통로와 망표준들과 함께 동작하는 5개의 FC 규약층에서 자료를 넘 
기 기 한다. 

• 주로 낮은 속도를 가지 는 매 체 공유표준이 지 만 더 높은 믿 음성 과 유연성 을 가진 
다. 다른 표준과 교환식 FDDI 호환성 을 위하여 많은 속도증가가 필 요하다. 

• 기 가비트이써네 트는 잘 확립 된 이써네 트와 봉사기 구조, 자료기 지，창고업무응용 
들의 목표로 된다. 고속이써네 트사용자그룹들로 하여 개 선되 고 있는 인트라네 트 
와 다매체，큰 화상파일들， LAN , 그롭계산，의뢰기. 

• Myrinet 는 지 금 주로 SAN 과 클라스터 응용들에 적 용되 고 있 다. 그러 나 대 면부 
및 규약장벽 들이 공통의 표준들에 의해 완화되 면 기 가비 트 LAN 분야에 침 투할 
수 있다. 

• HiPPI 와 SuperHippI 는 대형콤퓨터들과 SMP 봉사기들, 초고속콤퓨터들사이의 대 량 
자료이동을 위한 고속매 체 로 계 속 사용될것 이 다. 규약독립 성 으로 하여 HiPPI 는 
인 터네 트망응용들에 도 적 합하다. 

• ATM 은 WAN 인터네 트망화와 다매 체，인터네 트，광대역 ISDN 응용을 계속 지배할 
것 이 다. 앞으로의 개 발에 서 는 가격효과성 (제 품가격 의 삭감)을 가져 올것 이 다. 

• SCI 는 확대 가능한 호상접 속체 계 틀 특히 SMP 와 NUMA 다중처 러 기 또는 최 근에 
Sun / Cray , SGFCray , HP / Convex , Data General 등에서 발표한 MPP 콜라스터들속에 
서 인기를 엄고 있다. 
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6.8. 참고문헌주해와 련습문제 


Feng 은 1981 년까지의 호상접속구조 [288] 에 대한 개괄을 주었다. Siegel 의 책은 다단 
호상접 속망들을 포함한다 [555]. 다중처 리 기 들과 다중콤퓨터 들을 위한 망은 V _ a 와 
Raghavendra 에서 론의된다[旧 4]. 최근의 호상접속망들은 Duate 와 Yalamanchili , Ni 의 책 에 
서 취 급된 다. Hwang 은 확대 가능한 체 계 들과 클라스터 들을 구성 하기 위한 기 가비 트망들 
을 평가하였다 [328]. 

호상접 속상의 3가지 문제 점 은 TFFF , MicroMagazine 1995.2, 1996.2, 1997.2 에 서 제 기 되 
였 다. Myrinet 는 Bodenetal 에 서 서 술되 였 다 [561]. SGI POWERpath _2 는 [549] 에 서 서 술된 
다. IBM Vulcan 크로스바와 SP 2 교환기설계는 [592] 에서 론의된다. Digital GIGAswitch 는 
[194] 의 Advantage 클라스터들과 함께 서술된다. 

기억기통로기술은 Gillet 와 Kaufmann [268] 에서 서술된다. 완전혼합의 응용들은 Sterne 에 
서 주어 진 다 [588]. 오메 가망은 lawrite [395] 에 의 해 제 안되 였 으며 Cedra 과제 [382] 에 서 구성 
되 였 다. Preparata 와 Vuillemin 은 CCC 구조를 개 발하였 다 [588]. 심 장수축배 렬 의 개 념 은 
Kung 파 Leiserson 에 의 해 개 발되 였 다 [385]. 화음고리 는 Arden 과 Lee 에 서 취 급되 였 다 [43]. 
k-ary N 차원 립 방체 망들은 Dally 에 서 연구된 다 [183]. 굵은 나무는 Leiserson 이 소개 한다 [403]. 
Hwang 파 Ghosh 는 대 규모병 렬 계 산을 위한 hypenet [183] 을 제 안하였 다. Stellings 는 [579] 와 
[58 이에서 LAN 과 MAN , ISDN 에서의 최근의 발전을 개괄하였다. ATM 과 세포교환기술은 
Partridge 의 Gigabit Networking [489] 에 서 취 급된다. 일부 망자료는 Saunder [536] 에 의 한 고 
속 LAN 들에 대 한 McGraw - Hill 수첩 에서 얻을수 있 다. Johnson 은 망구조들에서 집 체통신속 
성 들을 밝혔 다 [353]. 해와 Mckinley 는 wormholel 경 로정 하기 기 술을 개 괄하였 다 [465]. 

기 가비 트이써네 트에 대 한 정 보는 [26 刀과 Roberts [518] 에 서 찾을수 있 다. 빛 섬 유통로는 
Frymoye [25 刀에 서 평 가되 며 FDDI 고리 는 [582] 에서， HiPPI 는 Tolmie 와 Flanagan [613] 에서 , 
SCI 는 Bryhni 와 Wu [114] 에서 평가된다. SCI 규약은 IEEE 표준 1596_1992[343]에 명기되였으 
며 James el al . [348] 이 소개한다. Myrinet 기 술과 제 품들은 Boden et al .[9 刀에 서 술된 다. 

병렬빛섬유 SCI 련결들은 Engerbretsenh et al . [231] 이 소개 한다. ATM Forum UNI 
3.1 은 [46] 에 서 술된다. Zegura [664] 는 ATM 교환기 체 계 설계 의 기 초적 인 문제 점 들을 취 급 
한다. 여 러 가지 망표준들과 규약들은 ANSI 와 IEEE , ATM Forum , Gigabit 이씨 네트 
Alliance 의 출판물들에서 볼수 있다. 


문 제 


문제 6.1. 호상접속망에 대한 다음의 

(1) 마디차수 

(2) 망직경 

(3) 2등분대 역 너 비 

(4) 정 적접속망 

(5) 동적접 속망 

(6) 비차단식 망 


기 본적 인 술어 들을 정 의하시 오. 

(7) 집 단내 방송과 방송 

(8) 그물과 고리면 

(9) 망의 균형성 

(10) 다단망 

(11) 크로스바교환기 

(12) 세 포교환망 
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문제 6. 2. 3차원고리면과 6차원2진하이퍼 립 방체，최소직경을 가지는 CCC 들을 사용 
하여 64개의 마디로 된 다중콤퓨터를 설계 한다고 하자. 

아래 에서는 이 망위상들에 대 한 상대 적 인 척도를 제 기한다. 대 답은 해석적 인 러유에 
기초해야 한다. 

(1) d 는 망의 차수， D 는 망의 직경, L 은 망의 전체 련결수라고 하자. 망의 질은 
( dxDxL)-l 에 의해 평 가된 다. 이 질 평 가에 따라 3가지 구조를 정 렬 하시 오. 

(2) 마디호상간 평균거 려는 두 마디사이의 가장 짧은 경 로의 hop (련결)들의 수이 
다. 이 평균은 모든(원천，목적지) 쌍들에 대하여 계산한다. 한 마디가 거 리 i 
를 가지는 다른 모든 마디들에 통보문을 보낼 가능성이 D-Z + 1 이라고 할 
때 마디호상간평 균거 리 에 기 초하여 3가지 구조를 정 렬 하시 오. 

문제 6.3. 모두가 N 0 ， N l ， N 2 ，…， N 心으로 표식된 64개의 마디를 가지는 Illiac 그물 
(8 x 8), 2진하이 퍼 립 방체， barrel shifter 를 고찰하자. 모든 망련결들은 쌍방향이 다. 

(1) 3가지 망의 매개에 대하여 마디 으로부터 정확히 3걸음에 도달가능한 마디 
들을 모두 찾으시오. 

(2) 매 경우에 임의의 마디 的로부터 다른 마디 로 자료를 보내는데 필요한 경 
로정 하기 걸 음의 최 소수의 웃한계 를 지 적 하시 오. 

(3) 1024개의 마디를 가지는 큰 망에 대하여 (2) 부분을 반복하시오. 

문제 6. 4. «개 의 처 리 기 와 w 개 의 공유기 억 기 모둘을 가지 는 다중처 리 기 체 계 를 구성 
하는데서 모선과 크로스바 교환기，다단망들을 비교하시오. 단어길이는 Wbit 이고 2 X 2 교 
환기들을 사용한다고 가정한다. 비교는 다음의 4가지 종류의 매개에 대하여 각각 진행 
한다. 

(1) 교환 또는 중계，선들，접속기, 케블요구와 같은 장치복잡성들 

(2) 처리기와 주기억사이의 단위자료전송의 최소지연 

(3) 매 처 리 기들의 리용가능한 대 역너 비범위 

(4) 치환，자료방송，차단처 리 등과 갈은 통신능력들 

문제 6.5. 다단망에 대한 다음의 물음에 대답하시오. 

(1) 방송과 치환을 다 포함할 때 4 X 4 교환기모둘에는 얼마나 많은 정당한 상태들 
이 있는가? 리유를 들어 설명하시오. 

(2) 여 러 단으로 4 X 4 교환기 모둘들을 사용하는 64개 입 력 오메 가망을 구성하시 오. 
차단이 없이 망을 통과하는 단일통과에서 얼마나 많은 치환이 직접적으로 실 
현될수 있는가? 

(3) 1통과치환들의 수와 망을 거치는 하나 또는 그이상의 통과에서 달성가능한 
총 치환들의 수는 얼마인가? 
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문제 6.6. k-ary «차원 립 방체 망에 대 한 다음의 물음에 대 답하시오. 

(1) 얼마나 많은 마디들이 있는가? 

(2) 망직경은 얼마인가? 

(3) 2등분대역너비는 얼마인가? 

(4) 마디차수는 얼 마인가? 

(5) k-ary n 차원립방체망과 고리，그물, 고리면들, 2진 n 차원립방체, 오메가망사이 
의 그라프리론적인 관계를 밝히시오. 

(6) 관습적 인 고리면과 접힌 ( folded ) 고리면사이의 차이를 밝히시오. 

(7) 고정 된 선 ( wire ) 의 2등분을 가정 할 때 왜 낮은 차원의 망(고리 면)들은 낮 
은 지 연을 가지 며 높은 차원의 망(하이퍼 립 방체 )들보다 더 높은 분쟁 처 리 
량을 가지는가? 

문제 6. 7. 아래 에 제 시 하는것 은 다음의 가정 하에 서 4개 의 처 러 기 기 판과 16개 의 기 
억 기 기 판을 가지 는 공유기 억 다중처 리 기 를 위 한 뒤 쪽 판 ( backplane ) 모선의 설 계 명 세 서 의 
실 례 이 다. 


• 모선박자속도 =20 MHz 

• 기억기단어길이 =64 b ; 처리기는 4개 단어로 된 블로크자료를 요구한다. 

• 기 억 기 접 근시 간 =100 ns 

• 공유된 주소공간=240단어 

• 뒤 쪽 판에 서 리용가능한 신호선의 최 대 수는 96이 다. 

• 동기 적 인 시 간화 ( timing ) 규약 

• 완충기 와 넘 기 기지연은 무시한다. 


(1) 최대모선대역너비 

(2) 유효모선대역너비(최악의 경우) 

(3) 중계방식 

(4) 매 신호선의 이름과 기능 

(5) 뒤쪽 판에 펄요한 확장홈의 수 

문제 6.8. 8 X 8 크로스바교환기들을 사용하여 512개 입 력 다단오메 가망을 구성 한 
다고 하자. 이 망에는 몇개의 단이 필요한가? 망을 구성하는데 몇개의 크로스바교 
환기 가 필요한가? 망을 4096개 마디 로 확장하면 몇개의 8 X 8 크로스바교환기 가 필요 
한가? 
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문제 6.9. 질적 및 량적설명을 주면서 매체공유망，파케트교환망， ATM 교환망에 대 
한 다음의 두가지 물음에 대답하시오. 

(1) 매 체공유망과 교환망사이 의 차이 는 무엇 인가? 매 개 망종류에 대 하여 망기 술 
의 실례를 2개 들고 그것들의 우점과 부족점들을 밝히시오. 

(2) ATM 교환망과 전통적 인 파케트교환망사이의 주요차이는 무엇인가? ATM 교환 
망의 우점 과 부족점 을 말하시 오. 

문제 6. 10. 다음의 표의 빈 칸들을 채 우시 오. 입 력값들은 평 가가 진행 되 는 시 간에 
따라 변한다는데 주의하시오. 


망기술 

망구조 

대역너비 (속도범위) 

동선상의 거리 

빛섬유상의 거리 

기가비트이써네토 





Myrinet 





HiPPI 





SCI 





빛 섬유통로 





ATM 





FDDI 






문제 6. 11. SCI 기 술은 확대 가능한 공유기억기 다중처 리 기 구성 을 위한 대 중적 인 선 택 
으로 되고 있다. SCI 에 대한 다음의 물음에 대답하시오. 

(1) SCI 련결들로 호상접속된 처 리마디 들사이 에서 분산공유기 억기 ( DSM ) 를 실현하 
기 위하여 TF . FF , SCI 표준에서 사용한 캐 쉬일관성 규약을 설명 하시 오. 

(2) 왜 SCI 접 속들이 DSM 다중처 리 기 들을 구성하는데 채 택된 대부분의 매 체공유 
망들보다 더 확대가능한가? 

(3) CC-NUMA 다중처리기 체계의 구성에서 어떻게 SCI 련 결들을 사용하는지 설명 
하시 오. 

(4) 확대 가능한 병 렬 콤퓨터 를 만들기 위하여 SCI 호상접 속을 사용하는데 서 현재 
의 제한과 부족점은 무엇 인가? 

문제 6. 12. 일 리노이즈의 Cedar 다중처 리 기는 그림 6_41에서 와 같이 클라스터식오메 
가망으로 만들어 진다. 단 1에서는 4개의 8 X 4 크로스바교환기가, 단 2에서는 4개의 5 x 8 크 
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로스바교환기가 사용된다. 

클라스터당 8개의 처 리기를 가지는 4개의 클라스터 로 분할된 32개의 처 리기와 32개 
의 기억기모둘이 있다. 

비차단접 속을 위한 크로스바교환기 사용에 서 충돌을 피 하기 위한 고정 된 우선권도식 
을 그리시 오. 간단히 하기 위하여 처 리기 로부터 기 억기모둘에 로의 앞방향접속만을 고찰 
한다. 

(1) 두단이 다 8 x 8 크로스바교환기를 사용한다고 가정하자. 64개 처리기와 64 
개 기 억모둘사이 의 교환식접 속을 제 공하기 위 한 두 단계 Cedra 망을 설 계 
하시 오. 

(2) 512개 처리기와 512개 기억기모둘들을 접속하기 위한 블로크를 만드는것처럼 
Cedra 망을 8 X 8 크로스바교환기를 사용하여 더 확장하시오. 

(3) 입 력단으로부터 출력단까지 린접한 단사이 의 모든 접 속들을 말하시 오. 



주계 2 기억 기 


그림 6-41. Cedra 다중처러 기 안의 오메가망 
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제 7 장. 스레드화，동기화 및 틍신 


이 장에서는 프로쎄스/스레드의 관리와 동기화, 통신을 지 원하는 여 러 가지 하드웨 어 
및 쏘 프트웨 어기구들을 론의한다. 이 기구들은 3편에서 고찰하는 여 러 가지 다중처 리기와 
다중콤퓨터가동환경들에서 사용된다. VLSI 기술의 발전으로 이 기구들중의 일부는 단 
일처리기체계들에 통합되고 있다. 

7.1 에 서 는 먼 저 2장에 서 론의 한 프로쎄 스의 개 념 에 대 립 되 는 스레 드의 개 념 을 론 
의한다. 7.2 에 서 는 여 러 가지 동기 화기 구들을 론의한다. 7.3 과 7.4 은 통신을 취 급한다. 

먼저 대중적 인 TCP / IP 표준을 론의하고 다음 보다 효과적 인 여 러 통신기술을 준다. 

7. 1. 쏘프트웨어다중스레드화 

하드웨 어다중스레 드화는 5.6 에서 론의 한것 처 럼 기 억기지연을 숨기 기 위한 다중문 
맥처 리기들의 사용을 의미 한다는것을 명 백히 한다. 쏘 프트웨 어 다중스레 드화는 완전히 
다른 개념이다. 현대 처리기구조와 조작체계에서는 두개의 중요한 발전이 이록되여야 
한다. 

• 첫째 로，현재의 RISC 처 리 기들을 높은 정수 및 류동소수점연산성능을 가지도록 
설계하는것 이 다. 그러 나 조작체 계 지원만큼 주의 를 돌리 지 않았다. 

• 둘째 로, 확대 가능한 콤퓨터가동환경 들에서 조작체 계의 기능성 및 모둘성 추가를 
위한 보다 구조적 인 지 원이 필요하다. 

이러한 발전은 오늘의 PC 시장을 지배 하는 Intel 80 x 86 과 Pentium 처리기들 에도 응용 
된다. 이 처 리 기 틀은 CISC 에 기 원을 두고 있 으며 RISC 의 많은 착상을 통합하였 다. 
Andersonelal [36] 은 처 리 기구조와 조작체 계의 요구에 대 하여 론의 하였 다. 그 연구의 일부 
결과들을 아래의 표(표 7-1) 로 만들었다. 

R 2000 과 SPARC 는 VAX 의 계산속도 ( SPECmark 성능평 가기준으로 측정된다.)를 4배 
더 개선하였지 만 조작체 계기 능을 위한 속도는 훨씬 적 게 개선하였 다. 

처 리 기구조와 조작체 계사이의 이 차이 는 그것을 제 공하는 처 리 기와 조작체 계설계 자 
들이 다 관심을 돌리지 않는다면 더 커지게 될것이다. 

최 근의 조작체 계연구에 서 의 주요한 혁 신은 스레 드이 다. 이 부분에서 는 스레 드가 어 
떻게 효과적으로 실현될수 있는가를 본다. 스레드를 다중스레드화된 프로그람작성에 어떻 
게 리용하는가는 12장에서 론의한다. 
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표 7-1 _ 처리기구조에 대한 조작체계지원 


속 성 

절대값 

CVAX 와 상대값 

DEC 

CVAX 

MIPS 

R2000 

SUN 

SPARC 

MIPS 

R2000 

Sun SPARC 

0S 기능 
성능…) 

Null 체계 

호출 

15.8 

9 

15.2 

1.8 

1 

트랩 

23.1 

15.4 

17.1 

1.5 

1.4 

폐지표 

입력자료변화 

8.8 

3.1 

2.7 

2.8 

3.3 

문맥 절 환 

28.3 

14.8 

53.9 

1.9 

0.5 

0S 기능명령수 

Null 체계 

호출 

12 

84 

128 

7 

10.6 

트랩 

14 

103 

145 

7.4 

10.3 

페 지표 

입 력 자료 

변화 

11 

36 

15 

3.3 

1.4 

문맥 절 환 

9 

135 

326 

15 

33.2 

처러기상태에서 
32bit 단어의 수 

등록기들 

16 

32 

136 

2 

8.5 

F.P. 상래 

0 

32 

32 

- 

- 

Misc. 상래 

1 

5 

6 

5 

6 


7. 1 ■ 1 ■ 스레드개념 

여기서는 IEEE POSEX Threads(Pthreads)[345] 와 많은 공통성을 가지며 널러 사용된 
상업제품인 Solaris thread[583] 에 기초한 단순화된 모형을 사용한다. 

스레 드(또는 조종스레 드)는 실 행 되 고 있 는 명 령 들의 렬 이 다. 스레 드의 개 념 을 그림 
7-1 에 서 설명한다. 
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Solaris 스레드모형의 기본형 태는 2개 수준구조이 다. 사용자방식(사용자공간)에서 동작 
하는 스레 드는 사용자수준스레 드(또는 사용자스레 드 또는 간단히 스레 드)라고 한다. 핵 
심 부방식 (Kernel mode ) 에 서 동작하는 스레 드는 핵 심부스레 드 또는 경 량처 러 (Light weight 
process , LWP ) 1 라고 한다. 사용자수준의 동적 련결 스레 드서 고는 스레 드응용프로그람작성 
대 면부를 실현하며 사용자스레 드들을 관리 한다. 한편 핵 심 부는 LWP 들을 관리한다. 

매 개 프로쎄스는 하나 또는 그이 상의 스레 드를 가지 며 하나 또는 그이 상의 LWP 들 
에 배정된다. LWP 를 가상 CPU 로 생각할수 있다. 하나의 프로쎄스에 배정된 LWP 들의 
수를 프로쎄스의 동시 성수준이 라고 한다. 스레 드서 고는 핵 심부가 물리처 리 기들의 련합 
( pool ) 우에 서 실 행하는 모든 프로쎄 스들의 LWP 들을 일 정작성하는것 과 득같이 LWP 들의 
련 합우에 서 실 행하는 프로쎄 스의 스레 드들을 일 정작성한다. 핵 심 부는 사용자수준스레 드 
들을 관리할수 없으며 LWP 들만이 관러 할수 있다. 

하나의 프로쎄 스내 의 LWP 들의 련합우에서 실행하도록 일정 이 작성 되 는 스레 드를 비 
속박스레드라고 부론다. LWP 에 영구적으로 속박된 스레드는 속박스레드라고 한다. 프로 
그람작성자의 관점에서 속박스레드는 비속박스레드와 꼭 같다. 그러 나 조작체계의 관점 
에 서 속박스레 드는 LWP 와 같다. 실 례 로 비 속박스레 드가 프로쎄 스내 에 서 일 정 이 작성 되 는 
동안 속박스레드는 모든 능동스레드들에 관하여 일정이 작성되는데 이것은 실시간응용들 
을 위한 유용한 특징 이다. 

스레 드는 프로쎄스와 곡같이 임의의 응용코드와 체 계호출들을 실행할수 있다.프로쎄 
스의 스레 드들은 프로쎄스의 주소공간 즉 코드와 대부분의 자료，프로쎄스서술자정보를 
공유한다. 스레 드들은 서 로 독립 적 으로 비동기적 으로 실행한다. 하나의 스레드가 차단될 
때 (실 례 로 완료하기 위하여 I/O 연산을 기 다리 는것 ) 다른 스레 드들은 계 속 실 행할수 있 다. 
한개 프로쎄스의 여러 스레드들은 같은 시간에 여러 처리기들에서 실행할수 있다. 

실례 7.1. 프로쎄스와 스레드， LWP , 처리기의 개념 

그림 7-1 의 체 계는 4개의 처 리기 에서 실행하는 3개의 프로 쎄스를 가진다. 프로 쎄 스 
이는 단일 스레드와 단일 LWP 를 가지 는 일 반적 인 유닉 스처 리 이다. 프로 쎄 스 P 2 은 단일 
LWP 우에 서 실 행하는 2개 의 스레 드를 가진다. 프로 쎄 스 P 3 은 3개 의 LWP 에 서 실 행하는 5 
개의 스레 드를 가진다. PI , P 2, P 3 의 동시성수준은 각각 1, 1, 3이 다. 미의 스레 드와 P 3 
의 제 일 오른쪽 스레드는 속박스레드이 다. 나머지는 모두 비속박이 다. 

스레 드연산들은 사용자공간에 서 스레 드서 고에 의해 실현되 고 프로쎄 스안의 스레 드 
들은 분할된 주소공간들을 가지 지 않기때 문에(경 량스레 드) 프로쎄 스연산들보다 비 용이 
낮다. 그러므로 창조, 끝내기, 동기화와 같은 스레드연산들은 모두 핵심부에 들어 가지 
않고 같은 사용자공간에 서 진행 된다. 복사와 문맥절 환, 교차보호경 계 들로 하여 프로쎄 
스의 연산에서 초래되는 부가처 리들은 크게 감소된다. 


핵 심 부스레 드와 LWP 는 2 개 의 서 로 다른 개 념 이 다. 간단화를 위 하여 LWP 는 사용자의 처 
리 를 실 행하는데 리 용되 는 핵 심부스레 드로 간주한다. 핵 심부스레 드들은 새 치 기처 리 와 같 
은 다른 목적 에 사용된 다. 다르게 서 술하지 않는 한 핵 심부스레 드와 LWP 사이 의 차이 를 
이 책 에서 는 무시한다. 
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7. 1 ■ 2. 스레드관리 


스레 드창조 (thread creation ) 

스레드창조는 새로운 주소공간을 창조할 필요가 없기때문에 프로쎄스창조보다 더 간 
단하다. 다만 다음과 같은 상태 정 보가 특정 한 스레 드에 대 하여 유지 되여야 한다. 


• 스레 드 ID 

• 처 리 기 상태 (프로그람계 수기 와 탄창지 시 기 를 포함하는 등록기 들) 

• 스레 드특정 탄창 

• 스레 드일 정 작성 에 사용되 는 스레 드의 우선권 

• 스레 드특정 자료를 보관하기 위 한 스레 드국부기 억 구역 

• 스레 드특정 신호마스크 

이 정 보는 스레 드구조라고 하는 자료구조에 서 스레 드서 고에 의해 창조되 고 유지 된 
다. 탄창용기억기 구역 은 스레 드서 고에 의해(프로쎄 스의 주소공간의 더 미구역 에 ) 자동 
적 으로 배정되거 나 스레 드의 창조때 응용코드에 의해 주어 진다. 

프로쎄스안의 모든 변수들은 그 프로쎄스의 모든 스레드들이 공유한다. 그러므로 
한 스레드가 변수를 수정하면 그 효과는 그 프로쎄스의 모든 스레드들에서 나타난다. 
또한 매 스레드는 이 특별한 스레드에 소속된 변수들을 보관하는데 사용되는 스레드국부 
기억도 가지는데 이것에는 다른 스레들이 직접 접근할수 없다. 

스레 드구조자체 도 스레 드국부기 억 에 배 정 된다. 


스레드일정작성 

스레 드서 고는 LWP 들의 련 합우에 서 실 행 하는 스레 드들을 다중화하는 스레 드일 정 작 
성을 제공한다. 매 스레드는 그림 7-2 에서 보여 주는바와 같이 임의의 시각에 어떤 하 
나의 상태 에 있 다. 새 로 창조한 스레 드는 RUNNABLE 상태 에 서 시 작하여 휴식 LWP 가 
리용가능하게 되기를 기다린다. 다음서고는 그것을 급송하여 LWP 에서 실행하며 스레 
드는 ACTIVE 상태 에 들어 간다. 
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ACTIVE 스레드가 처 리 기국부동기 화대상(즉 다른 프로쎄 스들사이 에서 공유되 지 않는 
것)에서 차단되면 LWP 는 그것을 SLEEPING 상태 에 넣은 다음 가장 높은 우선권을 가지 
는 다음의 RUNNABLE 스레 드실 행 에 로 절 환한다. 그러 나 스레 드가 속박스레 드이 면 스레 
드의 차단은 밑 에 있는 LWP 도 차단한다. 잠자기스레 드는 동기 화대 상이 리용가능하게 
될 때 즉 차단조건이 제거될 때 깨여 난다. 

Solaris 스레 드들은 선점 (preemption) 를 지 원 한다. 더 높은 우선권을 가지 는 스레 드는 
ACTIVE 스레 드를 선점하여 ACTIVE 스레 드의 LWP 를 가질 수 있다. 프로그람작성 자는 
thr_suspend() 와 같은 서고함수들을 사용하여 스레 드를 중지 하고 그것을 STOPPED 상태 로 
보낼 수 있 다. STOPPED 상태 의 스레 드는 살아 있 지 만 thr_continue() 가 호출될 때 까지 
RUNNABLE 로 될수 없다. 최종적 으로 스레 드를 완료하면(스레 드코드가 끝나거 나 thr_exitO 
가 실행될 때) 그것은 ZOMBIE 상태에 들어 간다. 스레드서고는 이 ZOMBIE 스레드들의 
기 억 공간을 해 방하는 수확스레 드 (reaper thread) 를 가진다. 

ACTIVE 스레 드는 LWP 우에 서 실 행하도록 미 리 급송된 스레 드이 다. 이 스레 드는 
아래에 있는 LWP 에 련결된다고 한다. 매 LWP 는 임의의 주어 진 시간에 최대로 하 
나의 련결된 스레드를 가진다. ACTIVE 스레드의 밑에 있는 LWP 는 그림 7-3 에서와 
같이 임의의 시각에 4개 상태들중 하나에 있다. LWP 는 스레드가 다른 스레드상태로 
부터 또는 다른 스레드상태에로 이행할 때 항상 RUNNING 상태에 있다는데 주의하여 
야 한다. 

LWP 들은 핵 심부에 의하여 일정 이 작성 된다. RUNNING LWP 는 핵 심부에 의해 선 
점 되 여 있거 나 시 간초과될 때 RUNNABLE 상태 로 이 행 한다. 그것 은 LWP 가 어 떤 조건 이 
성 립될 때까지 기 다리도록 차단체 계호출을 실행하여 차단할수 있다. LWP 는 STOPPED 
상태 에 들어 가는 LWP 서 고함수호출에 의 해 중지 될 수 있 으며 continue 서 고함수를 호출하 
여 이전의 상태로 되돌아 갈수 있다. 

스레드가 완료되 고 RUNNABLE 스레드가 더 는 없을 때 밑 에 있는 LWP 는 대 역 LWP 
조건변수를 기 다리 면서 휴식 상태 에 들어 간다. 스레드가 RUNNABLE 로 될 때 대 역변수 
는 휴식 상태 의 LWP 가 깨나도록 신호한다. 


스레드눙동상대 



그림 7-3. 핵 심 부에 의해 조종되 는 LWP 의 상태 변화도 
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7. 1 - 3. 스레드동기화 

Solaris 스레드서고는 두가지 형태의 동기화대상 즉 프로쎄스국부와 프로쎄스공유를 
실 현한다. 프로쎄 스국부동기 화대 상은 갈은 프로쎄 스내 의 스레 드들에 접 근가능하며 같은 
프로쎄 스의 스레 드들을 동기 화하는데 사용된 다. 

스레 드서 고는 매 개 동기 화변수에 대 한 하나의 잠자기대 기렬을 유지한다. 스레드가 
동기화변수에 대 한 동기화연산을 실행 하고 차단하면 스레드는 그 변수의 대기렬에서 잠 
자기 에 들어 간다. 만일 스레드가 비 속박이면 밑 에 있는 LWP 는 다음의 RUNNABLE 스 
레 드실행 에 로 절환된다. 스레드가 속박스레 드이 면 밑 에 있는 LWP 도 속박스레 드와 련관 
된 LWP 신호기를 기다리면서 차단한다. 

이때 그 LWP 는 스레드우에 세워 둔다고 ( park ) 한다. 차단된 변수가 러용가능하게 
되 면 차단된 스레 드는 깨 나서 RUNNABLE 상태 에 들어 가며 서 고에 의 하여 일정 이 작성 
된다. 깨 여 난 스레드가 속박스레 드이 면 LWP 는 세워 두지 않고 핵 심부에 의해 일정 이 
작성된다. 

프로쎄 스공유동기화대상은 여 러 처 러기들이 접근가능하며 서로 다른 프로쎄스들의 
스레 드들을 동기 화하는데 사용될 수 있 다. 프로쎄 스공유동기 화요소들은 핵 심 부가 차단 
스레드들의 LWP 에 련결되여 있는 동안 차단스레드들을 핵심부안에서 잠자기에 넣기 
위하여 LWP 동기 화요소들에 의 거한다. 

그러한 대 상들은 동기 화요소들이 그것 들을 프로쎄 스공유로 인식할수 있도록 초기 화 
되여야 한다. 

7. 2. 동기화기구들 

동기화는 많은 콤퓨터부분들에 놓여 있는 풍부한 개념이며 활발한 연구분야이다. 콤 
퓨터구조와 자료기지，조작체계, 병렬처리，프로그람작성언어와 갈은 여러 학과들에서 겉 
보기 에 물질과 비슷한 동기화를 왜 배우는가 하면서 놀라는 학생들도 볼수 있다. 동기 
화학습에 서 는 4개 의 국면 을 리해하여 야 한다. 

호상배 제 (mutual exclusion ), 원 자성 ( atomicity ), 생 산자-소비 ^( producer - consumer ), 식 사하는 
철학자들(出 ning philosophers ), 장벽 동기화 (barrier synchronization ) 등파 같은 사용자와 접촉되 
는 동기화문제 들. 

(1) Andrew [3 기는 여 러 가지 기 타 문제 들에 대 한 훌륭한 참고서 이 다. 호상배 제 와 원 
자성문제 들은 특별 히 중요한데 7.2.1 에 서 고찰한다. 

(2) 동기 화문제 들을 풀기 위하여 사용자가 채 용하는 언 어 구문들. 

(3) 구문들은 본래 의 구문들이나 서 고부분루린들, 를파일 러 지 령 들의 형 식 일 수 있 다. 
현재 의 공유기억기 프로그람작성환경 에 서 대 중적 인 구문들은 잠금，신호기발, 사 
건，림 계구역，장벽 등을 포함한다. 이 구문들을 고수준구문이라고 하는데 7.2.2 
과 12장에 서 상세 히 론의한다. 

(4) 검사와 설정，꺼 내 기와 첨 가，비 교와 교환 등과 같은 다중처 리 기구조에서 리용가 
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능한 동기 화요소들. 

(5) 이 것 들은 흔히 체 계하드웨 어 에 의해 직 접 제 공되 므로 저수준구문이라고 한다. 
이것들은 7.2.3 에서 학습한다. 

(6) 저수준구문들로 고수준구문들을 실 현 하는데 사용되 는 알고리 듬들. 현재 의 많은 
체계들에서 잠금들은 여전히 기본적 인 구문이며 그우에서 다른 구문들이 만들어 
진다. 그래서 다음절들에서는 저수준의 구문들을 리용하여 어떻게 효과적인 잠 
금을 구성 하는가 론의한다. 

7. 2. 1 ■ 원자성 대 호상배제 

2.4.1 에서 이미 언급한바와 같이 3가지 형태의 동기화연산 즉 원자성과 자료동기화，조 
종동기화가 있다. 보다 상세한 계층도는 그림 7-4 에 보여 준다. 

현재의 다중처리기에 대한 본래의 프로그람작성모형은 장벽과 호상배제，잠금/신호기 
발，생산자-소비 자동기화를 지 원한다. 이것들은 원자성 및 eureka 동기화를 충분히 지원하 
지 못한다. 비 형 식적 으로 장벽동기 화는 모두가 그 실행 에서 하나의 일정한 점 에 도달 
하는 프로쎄스들의 그룹을 담보한다. 

Eureka 동기 화는 장벽동기 화의 반대 이 다. 즉 하나의 프로쎄 스가 하나의 일정 한 점 
에 도달하면 즉시 에 모든 프로쎄스들에 비동기적 으로 통지된다 ( Eureka ! I got it !). 



이것은 병 렬탐색 과 갈은 응용들에서 유용하다. 

련합의 동기화는 빈 련합으로부터 항목을 꺼내거나 가득찬 련합에 항목을 넣지 말것 
을 요구한다. 대 기렬에 대 한 동기화도 어떤 순서(실례 로 FIFO 대 기렬의 우선권대 기렬) 
가 있 다는것 을 제 외 하고는 류사하다. 모든 동기 화는 보통 공유기억기 기 계 들 ( PVP 들， 
SMD 들， DSM 들)우에 서는 일부 잠금요소틀， MPP 들과 클라스터 들우에 서는 통보문넘 기 기 
요소들에 의해 실 현된 다. 

호상배 제 와 원자성 은 련결되 였지 만 서 로 다른 2개 의 개 념 이 다. 호상배 제 는 간단히 2 
개의 물건들은 같은 시간에 같은 위치에 있을수 없다는것을 규정한다. 

원자성은 연산들의 렬은 한정되고 더 조겔수 없는 단일한 걸음 ( step ) 으로써 실행되 
여 야 한다는것 을 규정한다. 
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호상배제문제 

호상배제문제는 보다 형식적으로 다음의 코드로 서술할수 있다. 
parfor(i=0;i<n;i++) // parfor 순환의 매 실행 에 . 

{ // n 개의 처리기가 있다 

while(Condition) { 


independent computation, noncritical section 
critical { // 호상배제 코드의 입력자료점 


critical section 

} //호상배 제 코드의 탈퇴 점 


independent computation,noncritical section 


critical section 은 호상배제적으로 실행되여야 할 코드의 토막이다. Condition 은 critical 
section 에서 수정되는 론리표현이다. 실마리어 critical 은 괄호 {와 }로 둘러 싸인 코드 
(critical section) 가 호상배 제 적 으로 실행 되 도록 담보하는 구조화된 언어 구문인 critical 
region (림 계 구역 )을 서 술한다. 호상배 제 문제 의 해 답은 다음의 3 가지 속성 을 만족시 켜 야 
한다. 

• 호상배제성 한번에 오직 하나의 프로쎄스만이 critical section 을 실행되도록 하여 
야 한다. 

• 담보전진 만일 여 러 프로쎄 스들이 자기 의 critical section 을 수행 하는 림 계 구역 에 
들어 가려고 시도하면 적어도 하나는 끝내 성공한다. 다시 말하여 프로그람은 
혼잡되거나 교착되지 말아야 한다. 

• 기 아해 제 critical section 을 실 행 하려 는 프로쎄 스의 시 도는 성 공한다. 그것 은 다 
른 처 리 기들의 공모에 의해 기 아에 빠지지 않는다. 

좋은 해 답은 역 시 효률적 이 여 야 한다. 실례 로 호상배 제 알고리 듬의 성 능은 전체 프 
로쎄 스들의 수 n 에 의 존하지 않고 critical section 을 실행 하려 고 경 쟁 하는 프로쎄 스들의 
수 w 에 만 의 존하여 야 한다. 값 «_ m 은 경 쟁 하지 않는 프로쎄 스들의 수인데 이 것 들은 자 
기 의 비 림 계 구역 코드를 실 행 하고 있거 나 완료하였 다. 

다른 실 례 로서 만일 프로쎄 스가 critical section 을 실 행 하고 있 지 않다면 림 계 구역 에 
들어 가려는 프로쎄스의 시도는 즉시적으로 수행되여야 하며 다른 비경쟁프로쎄스들에 
의해 지 연되 지 말아야 한다. 

Lamport 의 애완용동물문제 

호상배 제문제 의 유명한 표현은 Lamport[39 이가 제 기하였 다. 

알리크와 보보는 하나의 마당을 공유하는 이웃들이 다. 알리크에게는 한마리의 애완용고 
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양이가 있고 보보에게는 애완용개가 있다. 그들은 자기들의 애완용동물들을 마당에서 놀게 
하려고 한다. 그러 나 두 동물은 서로 좋아 하지 않기때문에 매 시각에 오직 한마리만이 마당 
에 있을수 있다. 그리하여 알리크와 보보는 자기의 애완용동물들이 싸우지 않고 마당에서 놀 
게 하는 방법을 찾아 내야 한다. 

이것은 2개의 프로쎄스문제이며 n 개 프로쎄스로 쉽게 일반화할수 있다. 호상배제는 
한번 에 하나의 애 완용동물만이 마당에 있을수 있 다는것 을 가리키 고 있 다. 담보전진은 어 
떤 애 완용동물이 마당에 서 놀수 있 다는것 을 가리키 고 있 다. 기 아해 제 는 애 완용동물이 
마당에서 놀려고 무한정 기다리지 않는다는것을 가리키고 있다. 


원자성 

원자연산개념은 상태기계모형을 리용하여 형식적으로 정의할수 있다. 지령적인 프로 
그람작성 에서 프로그람은 상태기계(또는 자동체)로 간주할수 있다. 프로그람은 초기상태 
로부터 시작한다. 다음 프로그람은 더 쪼갤수 없는 걸음들의 렬을 따라 가는데 매 걸 
음은 현재의 상태를 다음상태로 변화시킨다. 그러한 더는 조겔수 없는 상태변환걸음을 
원자연산이라고 부론다. 보다 형식적 으로 다음의 정의를 준다. 

정 의 7.1 프로그람에 서 원 자연산은 다음의 3가지 속성 을 가지 는 지 령 들의 렬이 다. 

• 유한성 원자연산의 시 작으로부터 끝까지의 시 간은 유한이다. 

• 불가분리성 프로그람작성자의 관점에서 원자연산은 단일한 더는 조갤수 없는 걸 
음으로 실행된다. 프로그람의 나머지부분은 원자연산의 최종결과만을 볼수 있 
다. 원자연산에 의해 생성된 어떤 중간결과도 보이 지 않는다. 만일 어떤 러유로 
원자연산이 중간에서 중단되면 그것은 모든 부분적 인 효과들을 본래대로 만들고 
출발상태 에로 복구하여 야 한다. 

• 렬거가능성 불가분리성의 응당한 결과는 렬거가능성 인데 이것은 여 러개의 원자 
연산들이 병렬로 실행될 때 최종결과는 마치 이 연산들이 어떤 임의의 순서로 
잇 달아 실 행 된것 과 같아야 한다는것 을 의 미한다. 

이 정의에서는 원자연산이 프로그람작성자의 관점에서 정의되였는데 조작의 단위는 
지령이다. 콤퓨터구조는 모선주기 또는 박자주기와 갈은 보다 상세한 수준에서 원자성을 
리 용하려 고 한다. 보통 콤퓨터의 구조와 프로그람작성 환경 은 산수/론리연산과 기 억기읽 기， 
기억기쓰기，검사와 설정，비교와 교환，꺼내기와 첨가 등과 같은 일부 기본적인 원자연 
산들을 제공한다. 

원자성문제는 이러한 기본적인 연산들로 어떻게 단일한 원자연산을 만드는가 하는것 
이 다. 그러한 더 큰 원자렬을 트랜잭 션이 라고도 부른다. 원자성 문제의 해 답은 원자성 과 
담보전진，기 아해제를 담보하여야 한다. 원자개념은 다음의 예금문제를 통하여 더욱 정교해 
진 다. 
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예 금문제 

하나의 큰 회사가 은행에 3개의 구좌 X , Y , 고를 가지고 있다. 이 구좌는 임의의 수의 
회사종업원들이 그림 7-5 의 실례와 같은 3개의 원자연산을 통하여 접근할수 있다. 임의 
의 시간동안 많은 종업원들이 이 구좌들에 동시에 접근하고 있다. 이 트랜잭션은 안전 
하고 효률적이여야 한다. 

간단히 하기 위하여 구좌 A 가 충분한 자금을 가지 고 있 지 않을 때 회 수와 이 동에 
필 요한 오유처 리코드들은 무시한다. 그림 7-5 에 서 코드들은 원 자성 을 서 술하기 위하여 
새 로 보충된 구문을 가지 는 C - like 기 호를 사용한다. 

이 원자구역구문 “atomic{ 구역체부 厂’ 은 예 약단어 atomic 로 시 작되며 구역체부 
의 모든 연산들이 단일원자연산으로 실행되야 한다는것을 서술한다. 

원자구역은 일관성구역 이라고 하는 보다 강력한 구조화된 구문의 특수한 형식 이 다. 
이것은 12.3.5 에서 톤의한다. 


구좌 X로부터 $100 꺼내기 : 

atomic { 

if ( balance[X] > 100 ) balance[X] = balance[X] - 100; 

} 

구좌 Y 로 $100 넣기 : 

atomic { balance[Y] = balance [Y] + 100 ;} 

구좌 X 로부터 구좌 Y 로 $100 옮기기 : 

atomic { 

if(balance[X]> 100){ 

balance[X] = balance[X] - 100 ; 
balance[Z] = balance [Z] + 100 ; 


그림 7-5. 예금문제에서 3개의 트랜잭션 


원자성과 호상배제 

원자연산들과 호상배 제연산들은 다음의 차이 를 가진다. 

• 원자연산은 유한이 지 만 유한성 이 critical section 과 같은 호상배 제 연산의 내재 적 
인 특성 은 아니 다. 이 문제 는 현재 의 병렬언어들에 서는 무시 된 다. critical section 
은 콤파일러나 실시간지원체계가 발견할수 없는 무한고리를 포함할수 있다. 

• 호상배제는 불가분리성을 담보할수 있다. 그러 나 불가분리성은 다른 비호상배제 
수단에 의하여 실 현될수 있 다. 

• 호상배 제 는 순차적 인 실 행 을 가능하게 하지 만 원자성 은 병 렬 실 행 을 가능하게 한 
다. 호상배 제 문계 에서 는 한번에 «개 의 프로쎄 스들중 하나만이 critical section 을 
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실행할수 있다. 예금문제에서 여 러 트랜잭션들은 원자성 이 실시되는 한 동시적 
으로 실행될수 있다. 


원자성 은 전통적 으로 호상배 제 에 의 해 실 현된 다. Dijkstra 가 신호기 발구문을 도입 함 
으로써 잠금은 호상배제，원자연산들을 지 원하는 우월한 기술로 되 였다. 원자성 에 대 한 
호상배제 적 인 잠금해 답은 여 러개의 동시적 으로 실행하는 프로쎄스들이 공유자원들을 놓 
고 경 쟁 하는 조작체 계 들의 설 정 에 서 매 우 자연스럽 다. 

거기에서 기본관심은 안전한 자원공유를 담보하는것이다. 실례로 두개의 프로쎄스가 
다 같은 인쇄 기 로 파일 을 인쇄하려 고 한다고 가정 하자. 이 두개 의 인쇄연산들은 량쪽 파 
일들로부터 혼합된 행들이 출구되지 않도륵 동기화되여야 한다. 하나의 프로쎄스가 먼 
저 인쇄 기 를 잠그어 자체 의 호상배제 적 인 접근을 허 용하고 인쇄연산을 끝낸 다음에만 인 
쇄기를 해제하는것은 자연스럽다. 

병 렬계산에서 는 다르다. 여 기서 는 프로쎄 스들이 함수를 계산하는데서 협 력한다. 
자원공유는 프로그람작성자에게서 기본적인 관심사가 아니며 호상배제는 더는 원자 
성을 실현하는 본질적인 방법이 아니다. 사실 호상배제는 병렬계산의 목적에 대립된 
다. 왜 냐하면 병 렬 계 산은 순차실 행 을 요구하기때 문이 다. 

그러나 현재의 다중처리기들은 아직도 원자연산에 대한 기본적인 지원으로서 잠금과 
림계구역과 같은 호상배제구문을 사용한다. 호상배제는 병 렬계산응용들에서 원자성을 
실현하는 유일한 또는 가장 좋은 방법 이 아니다. 

새 로운 병 렬언어 구문들과 구조지원들이 원자성 을 더 효과적 이 고 안전하게 실현하기 
위하여 연구되 고 있 다. 그러 나 원자성 이 critical section 문제 로만 모형화될 수 있 으며 이 것 
은 호상배제를 요구하고 따라서 잠금을 요구한다는 생각을 깨버 려 야 한다. 

실례 7.2. 다시 본 Lamport 의 애완용동물문제 

• 알리크와 보보는 어느 애완용동물이 어느 시간에 마당을 사용할수 있는가 하는 일정을 작성 
할수 있다. 사실 SIMD 와 PRAM 과 같은 동기식병렬콤퓨터들에서 호상배제문제는 없어 진다. 

• 알리 크나 보보는 다른 이 웃으로 옮겨 갈수 있다. 이것 은 공유변수가 더 는 공유되 지 않도 
록 하는 병렬프로그람의 알고러듬에 대한 수정과 같다. 

• 알러크와 보보는 마당에 울타러 를 만들어 매 애완용동물이 자기의 마당을 가지도록 할 
수 있다. 이 해 답은 병 렬프로그람작성 에서 널러 사용된다. 착상은 공유자료구조를 더 작 
은 쪼각들로 나누어 매 프로쎄스가 경쟁 이 없이 자기의 자료쪼각우에서 작업하도록 하 
는것 이 다. 

• 알리크와 보보는 이웃에 자기들의 애완용동물이 마당에서 놀고 싶어 한다는것을 알기 위하여 
풍선을 띄울수 있다. 애완용동물은 이웃의 풍선이 이미 점유되였음을 발견하면 집으로 가서 
후에 다시 시:도한다. 이 착상은 잠금해제동기화기술 [306] 에서 제기된다. 해답은 여러가지 
이 다. 두 짐 승이 잠간 싸우게 하고 진 놈은 쫓아 낸다. 떠 있지 않으면 마당으로 갈수 있다. 
이것은 기발을 러용하는 Lamport 의 해답과 같다 [390]. 

• 애완용동물은 아무때나 마당에 갈수 있다. 그러나 마당이 성숙된 술어로 이것은 우선권 

_ 과 선점을 허용하는것과 갈다. _ 

그림 7-6. Lamport 의 애관용동물문제 에 대 한 소녀 의 해 답 
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오유를 범 하기 가 쉽 다는것 을 설 명 하기 위 하여 Lamport 의 애 완용동물문제 를 다시 
본자. 콤퓨터과학자가 이 문제를 풀면 거의나 잠금과 잠금해제 ( unlock ) 의 쌍을 사용하 
는 잠금해 답이 얻 어 질것 이다. 

이제 어린이가 같은 문제를 어떻게 푸는가 보자. 10살 난 소녀에게 우의 문제를 풀 
게 하였 다. 그 소녀 는 12개 의 해 답을 제 기하였 다. 애 완용동물들이 마당에 있는 동안 
종을 달도록 하거나 휴대용무선전화기를 사용하도록 하는 등 일부 해답들은 실지 타당치 
않다. 소녀는 5개의 타당한 해답들을 주었는데 그것들을 그림 7-6 에 요약한다. 

이 문제 가 호상배 제문제 (원자성 문제 는 아니 다.)토서 소녀 에 게 의 도적 으로 제 기 되 였음 
에 도 불구하고 소녀 는 열 쇠 나 림 계 구역 을 사용하는 호상배 제 해 답을 제 기 하지 않았다는것 
은 흥미 있다. 그러나 그의 4번째 해답은 그 방향에 있다. 호상배제의 개념 즉 두개의 
물건이 갈은 시 간에 갈은 장소에 있을수 없다는것을 아이들에게 설명하기 쉽 다는것도 알 
수 있다. 그러나 원자성개념이나 원자연산의 개념을 설명하기는 힘들다. 

7. 2. 2. 고수준동기화구성 

현재의 공유기억기다중처리기들에 대한 병렬프로그람작성환경들은 4개 형태의 동기 
화요소들 즉 사건과 장벽，잠금/신호기발，림계구역을 제공한다. 사건연산들은 생산자-소 
비 자 동기 화를 실현하는데 사용된다. 장벽 은 장벽동기 화에 사용된다. 잠금과 림 계 구역 들 
은 주로 호상배제형 식 에서 원자성 을 실현하는데 사용된다. 이 마지 막 두개 의 구문들은 
여기서 평가된다. 

신호기발파 잠금 

신호기발 S 는 다만 두개 의 원자연산 P ( s ) 와 V ( s ) 에 의해 처 리 될 수 있는 부가 아닌 
옹근수이 다. 

• P ( s ) 연산은 S 가 0보다 크게 될 때 까지 프로쎄 스를 지 연시키 는데 사용된다. 그다 
음 S 를 1로 감소시킨다. 

• V ( s ) 연산은 단순히 S 를 1로 중가시킨다. 

2진신호기 발 S (즉 S 는 True 또는 False 이 다.)는 잠금으로도 불리 운다. 잠금 S 에 대 한 
P ( s ), V ( s ) 연산을 흔히 각각 lock ( s ), unlock ( s ) 로 쓴다. 잠금의 공동사용은 다음의 실례에서 
서술되는바와 같이 호상배계를 통하여 critical section 을 원자연산으로 전환하는것 이 다. 

실례 7.3. lock 와 unlock 연산자의 사용 

모든 트랜잭 션에서 단일한 잠금 S 를 사용한다. 프로쎄스는 임의의 회 수와 예 금, 구좌 
이동을 하기전에 먼저 lock ( S ) 를 실행하여 잠금 S 를 획득하여야 한다. 그리고 트랜잭션을 
끝낸 다음 unlock ( s ) 를 실 행 하여 잠금을 해 제 하여 야 한다. 

프로쎄스가 잠금을 획득하였지만 그것이 아직 해제되지 않았다면 프로쎄스는 잠금을 
가지고 있다. 하나의 구좌이동트랜잭션은 아래의 코드로 실현할수 있다. 
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// Account Transfer — Versionl 
look ( s ); // 입력자료코드 

if ( balance [ x ]>100 ) { // 림 계 구역 

balance [ x ] =balance [ x ]-100; 
balance [ z ] =balance [ z ]+100; 

} 

unlock ( s ); //코드를 랄퍼 한다. 

잠금문제 

잠금의 기본우점은 이미 대 부분의 다중처리기들에서 지원 한다는데 있다. 7.2.4 에서 
론의한바와 같이 효과적 인 잠금에 대 한 많은 연구가 진행되 였다. 잠금은 거의 임의의 동 
기화를 실현하는데 사용할수 있는 대단히 융통성 있는 기구이다. 그러나 호상배제적인 
잠금기술들은 원자성을 실현하는데 사용할 때 일부 치명적인 결함을 가지며 다음의 문제 
들을 일으킬수 있다. 

(1) 비구조성 lock 들은 구조화된 구문이 아니므로 그것들의 사용은 오유를 일으킬 
수 있 다. 콤파일 러 는 틀린 코드가 여 전히 합법 적이 므로 lock / unlock 구문이 틀러 거 
나 과잉 이면 검 사할수 없 다. 비 렬거가능성 및 혼잡문제 들에 관한 코드작성 은 아 
래 에 서 론의 하는바와 같이 쉽 다. 

(2) 과잉서술 잠금은 실제 로 사용자가 원하는것 이 아니 다. 사용자는 트랜잭 션 이 자 
동적 으로 진행 되 는데 만 관심 을 자진다. 잠금은 원자성 을 성 취하는 유일한 방법 
이 다. 이 과잉 서술은 7.2.3 에 서 론의하는 보다 효률적 인 잠금해 제 기술들을 가능 
한 배 제한다. 하나의 특정한 실현에 대 한 과잉서 술은 이 식성 도 파피 하며 코드를 
리해 하기 힘 들게 만들수 있 다. 

(3) 상태 의 존성 트랜 잭 션은 바로 무조건적 인 원 자연산이다. 그러 나 잠금해 답은 신호 
기 발 S 를 도입하여 조건적 인 원자연산 lock ( S ) 를 사용할것 을 요구한다. 프로쎄 스 
는 lock ( s ) 를 통과하거나 신호기발변수 S 의 값에 의존하지 않을수 있다. 이러한 
자료의 상태 의 존동기 화는 상태 독립 동기 화보다 일 반적 으로 리해 하기 더 힘 들다. 
이것이 실제로 간단한 구좌이동코드의 문제는 아니지만 잠금이 문제를 일으키는 
보다 복잡한 경우들이 많다. 

(4) 순차실행 n 개의 처 리기 들 매개 가 하나의 트렌잭션을 실행하려 한다고 하자. 잠 
금해제의 호상배제적 인 본질에 의해 이 «개의 트랜잭 션은 그것들이 서 로 다른 
구좌에 접근하고 있다고 해도 한번에 하나만 실행되여야 한다. 또한 이 순차적 
인 실행 은 사용자가 원하는것 이 아니 다. 병 행성 을 높이 기 위하여 흔히 제 기되는 
착상은 매 구좌마다 분할된 신호기발을 사용하는것 이 다. 그러 나 간단히 알수 있 
는바와 같이 이 착상은 항상 동작하지 않는다. 

(5) 잠금부가처 리 O ( n ) 의 lock ( s ) 와 unlock ( s ) 연산들을 순차적 으로 실행 할 때 추가적 인 
부가처리도 있다. 더우기 «개 처리기들 매개가 하나의 lock ( s ) 를 실행할 때 최대 
로 그것들중 하나가 성공할수 있다. 다른 프로쎄스들은 반복적으로 S 에 접근을 
시 도해 야 한다. 이것은 많은 기 억기통신흐름을 생성할수 있다. 공유변수 S 에 대 
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한 경쟁은 분쟁문제 [499] 를 일으켜 성능을 더욱 떨굴수 있다. 

(6) 우선권전환 이 문제는 낮은 우선권의 프로쎄스가 선점되고 더 높은 우선권의 프 
로쎄스에 필요한 잠금을 가질 때일어 난다. 후자는 잠금에 의해 차단되므로 일 
어 날수 없다. 

(7) 보호차단 잠금을 가지 는 프로쎄 스가 폐 지오유나 시 간초과로 중단될 때 잠금을 
기 다리 는 다른 프로쎄 스들은 진행할수 없 다 [306]. 

(8) 비렬거성 실례 7.3 에서 구좌이동트랜잭션이 진행되고 있는 동안 다른 프로쎄스 
는 어떤 구좌에도 접근할수 없다. 직관적으로 더 좋은 해 답은 매 구좌마다 분리 
된 잠금를 사용하는것 이 다. 착상은 하나의 구좌가 어 떤 프로쎄 스에 의해 잠그어 
질 때 다른 프로쎄스들은 여전히 다른 구좌들에 접근할수 있다는것 이 다. 다음 
의 코드는 이 착상에 기초한것이다. 

//Account Transfer _ Version2 

lock(S[X]); //구좌 지를 위 한 기 발)를 잠금 

if( balance [ X ]>100 ) { 

balance [ X ]= balance [ X ]-100; 
unlock ( s [ X ]); //구좌 표의 리용을 끝낸다 

lock ( S [ Y ]); //구좌 Y 를 잠근다 

balance [ Y ] =balance [ Y ] +100; 
unlock ( s [ Y ])； //구좌 Y 의 리 용을 끝낸 다 

} 

else 

unlock[S[X]]; //구좌 X 가 열 리 도록 한다 

else 분기를 잊기 쉬운데 이것은 콤파일러가 발견할수 없는 오유를 일으킨다. 구좌 X 
에 충분한 자금이 없을 때 unlock ( s [ X ])# 포함하는 if 문의 toie 분기가 실행되지 않는다. 
그리하여 구좌 표를 영 원히 잠그어 앞으로 임의의 프로쎄스도 거기 에 접근할수 없다. 

이 코드는 구좌 표는 항상 열려 져 있다고 담보한후에도 계속 동작하지 않는다. 이 
때 오유는 그다지 명백치 않다. 문제는 우의 코드가 항상 렬거가능하지 않다는것 즉 만 
일 여러 트랜잭션이 동시에 실행될 때 그 결과는 이 트랜잭션들이 어떤 임의의 순차로 
실 행 된것 과 꼭 같지 않을것 이 라는것 을 의 미 한다. 비 렬 거 성 은 원 자성 을 위 반한다. 

(9) 교착 렬거성을 담보하는 잠금방법들이 있는데 그것들중 하나는 2단잠금규약으로 
알려 져 있다. 이것은 원래 자료기지체계들에서 동시조종을 위하여 개발되였다. 
이 방법에서 모든 lock 연산들은 트랜잭션의 첫번째 unlock 전에 실행되여야 한다. 
아래 에 제 시 한것 은 2단계 잠금을 사용하는 코드이 다. 

//Account Transfer _ Version3 

lock(S[X]); //구좌 지를 위한 신호기발)를 잠금 
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//구좌 하를 위한 신호기발)를 잠금 


if ( balance[X]>100 ) { 

balance[X]=balance[X]-100; 
lock ( S [ Y ]); 

balance[Y]=balance[Y]+100; 
unlock ( s [ Y ]); //구좌 Y 리용을 끝낸 다 

} 

unlock [ S [ Y ]]; // 구좌 X 의 리용을 끝낸 다 

이 코드는 렬 거 가능이 며 Version2 보다 약간 더 단순하다. 그러 나 그것 은 동시 성 을 제 
한한다. 한개의 프로쎄스가 구좌 X 의 프로쎄스를 끝냈고 구좌 Y 를 처리하고 있을 때 구 
좌 표는 계속 잠그어 져 있다. 그리하여 구좌 표는 이 처리에 더 필요하지 않지만 다른 
처리들은 그것을 사용할수 없다. 

물론 Version3 은 임의의 동시성도 허락하지 않는 Versionl 보다 더 높은 동시성을 허 
용한다. Version3 코드의 더 치명적인 문제는 혼잡의 가능성이다. 

처 리 묘가 구좌 표에서 구좌 Y 로 100$ 를 이동하고 있는 동안 다른 처리 Q 는 구좌 Y 
로부터 구좌 X 에 로 50$ 를 이동하고 있다고 하자. 

P 와 0가 병렬로 실행되고 있기때문에 비승리정황에 빠질수 있다. 즉 모가 표에 대 
한 잠금으로 구에 대한 잠금을 획득하려고 시도하는 동안 Q 는 구에 대한 잠금으로 X 
에 대 한 잠금을 획 득하려 고 시 도하고 있다. 2단잠금규약에 따라 프로쎄스는 모든 잠 
금들을 얻 기전에 잠금을 해 제할수 없 다. 그리하여 그것 들중 아무도 요구하는 잠금을 
얻을수 없다. 그것들은 lock ( S [ Y ]) 에서 기 다리는 P 와 lock ( S [ X ]) 에서 기 다리는 Q 로 하 
여 혼잡된다. 

이러한 교착들을 처리하는 여러 방법들이 있지만 병렬프로그람작성에 적합하지 못 
하다. 

실례로 교착발견방법을 가지는 실시간지원체계는 lock/unlock 연산들의 실행을 조종 
하거 나 기 다림그라프를 만들수 있 다. 

마디는 실행하고 있는 매 트랜잭션마다 창조된다. 트랜잭션 P 가 현재의 트랜잭션 
Q 가 가지 고 있는 잠금 S 를 기 다리 기 위한 lock(S) 를 실행할 때 가지(호)는 P 로부터 Q 
에 로 그려 진다. 교착은 기 다림그라프가 순환을 가질 때 일어 난다. 

일단 교착이 발견되면 순환의 어떤 트랜잭션은 중단될수 있으며 프로그람의 상태는 
트랜잭션의 효과를 없애도록 복구된다. 이 방법은 트랜잭션부하가 작을 때 자료기지의 
동시성조종에 효과적 이 다. 그러 나 병 렬계산프로그람에서 기 다림그라프를 창조하는 실시 
간부가처리와 중단과 복구의 실시 간부가처리는 너무 큰것 같다. 

다른 방법 은 교착예 방이다. 즉 프로그람은 프로쎄 스들이 절대 로 고리형의 기 다림상태 
에 들어 가지 않도륵 작성된다. 이것 을 달성하는 한가지 방법 은 모든 잠금들을 순서 짓고 
(실례로 신호기발이름들의 사전식순서를 사용한다.) 여러개의 잠금을 요구하는 임의의 프로 
쎄스는 항상 그 순서로 그것들을 획득하게 담보하는것이다. 그러나 이 계획은 동시성을 제 
한하며 프로그람작성 자에게 추가적 인 부담을 준다. 결과 코드는 너무 복잡해 진다. 

이러한 문제들을 극복하기 위하여 아래에서 론의되는 여러개의 구문들이 유도되 
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였 다. 

표 7-2 에서는 이 구문들을 사용자의 관점 에서 비교한다. 

사용자에 대 하여 가장 좋은 원 자성 구문은 원 자구역 이 며 가장 좋은 호상배 제구문은 
림계 구역이다. 


표 7-2 _ 다변수트랜잭션들을 우 I 한 구조들의 비교 


구조문제 

신호기 발 또 

는 잠금 

림계 

구역 

검사와 

설정 

비 교와 

교환 

트랜잭션 

기억기 

꺼내기와 

첨가 

비구조화 

XXX 


XXX 

Xxx 

XXX 

XXX 

과잉서 술 

XXX 

XX 

XXX 

Xxx 

XXX 

XXX 

상래 의존성 

XXX 


XXX 

Xxx 

XXX 

XXX 

순차실행 

XXX 

XXX 

XXX 

X 

XXX 


부가처 리 

XXX 

XXX 

XX 

X 

X 


우선권전환 

XXX 

XXX 

XXX 

X 

X 


보호 차단 

XXX 

XXX 

XXX 

X 

X 


비렬거가능 

XX 


XX 

Xx 

X 

XXX 

교착 

XX 


XX 

XX 

X 

XXX 

Xxx: 불허 또는 극히 극복하기 힘듬 

Xx: 약한 불허 또는 사용자가 주의 깊 게 코드를 작성하면 완화될 수 있 음 

X: 약함 또는 사용자가 어떤 잘 정의된 규칙에 따르면 없앨수 있음 

빈칸: 문제가 없음，체계에 의해 수행됨. 


림계 구역 

critical section 의 호상배제 를 담보하는 구조화된 구문이 critical region 인데 다음과 같 
은 문법을 가진다. 


critical_region resource 

{ // 입력자료점 

Sl;S2;---;Sn; // 림계구역 

} // 랄되점 


여 기서 resource 는 공유된 변수들의 모임 을 표시한다. 착상은 같은 자원을 공유하는 
모든 critical region 들은 호상배 제 적 으로 실 행 되 여 야 한다는것 이 다. 이 요구는 체 계 (롬파 
일러와 실시 간지원)에 의해 실시된다. 이 구문은 원래 조작체 계응용을 위하여 제 안되 였 
다. 병렬프로그람작성에 사용될 때 두개의 수정이 가해 진다. 

첫째로，자원부분은 실제로 쓸모 없으며 그래서 빠진다. 실지 다중처리기들에서 사용 
한 림계구역구문은 다음의 문법을 가진다. 
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critical_region 


Sl ； S2;--;Sn; 


// 잠금과 동등한 코드 
// lock ( s ) 

然 Sl;S2;-;Sn; 

// unlock ( s ) 


둘째 로, 그러한 다중처 리 기 들에 서 림 계구역 은 우에 서 보는바와 같이 구조화된 잠금 
방법임을 의미한다. 체계는 정확한 신호기발 S 를 자동적으로 선언하고 초기화하여 정확 
한 lock / unlock 문들을 생 성 한다. 

림 계구역 은 잠금에 비해 많은 우월성 을 자진 다. 그것 은 구조화되 고 상태 독립이 므로 
사용하기 더 쉽다. 림 계 구역 을 사용하는 트랜잭 션들은 렬거가능하며 교착이 없다. 그것 은 
잠금에 비해 더 작은 과잉 서 술이 며 구조에 적 게 의 존한다. 림 계구역 은 바로 호상배 제 
적으로 실행될수 있는 코드의 조각이라고 할수 있다. 이것은 잠금이 사용되지 말아야 한 
다는것 을 의 미하는것 은 아니 다. 현재 잠금은 호상배 제 를 실현하는 가장 대 중적 인 기 술 
이며 더 좋은 다른 방법들도 있다. 

7. 2. 3. 저수준동기화원시지령 


많은 다중처리기들의 하드웨어는 요소변수에 대한 개별적인 읽기 또는 쓰기연산들의 
원자성을 담보한다. 또한 대부분의 다중처리기의 하드웨어는 일부 원자성명령들을 제공 
하는데 그 매개는 요소변수에 대 한 단일한 read - modify - write 연산을 실현한다. 그러한 명 
령들은 더 크게 확장된 원자연산들을 실현하기 위하여 함께 사용될수 있다. 아래 에서 는 
복잡성이 증가하는 순서로 4개의 저수준구문들을 론의하고 잠금을 실현하는데 어떻게 
리용되 는가를 본다. 

검사와 설정 

TAS ( S , temp ) 로 표현되는 test _ and _ set 명령은 공유변수 S 의 값을 국부변수 temp 에로 
읽 고 S 를 仕교로 설정 하는 원자연산이 다. test _ and _ set 의 주요쓰임 은 아래 에 서 보여 주는 
바와 같이 잠금을 실현하는것 이 다. 
while ( S ) 

TAS ( S , temp ) 
while ( temp ) TAS ( S , temp ); 
if (balance [ x ] >100)( 
balance [ x ]= balance [ x ]-100; 

balance [ z ]= balance [ z ]+100; 

} 

S=False 


// 이 세개의 행은 
// 하나의 lock ( s ) 연산을 
// 실현한다 
// 림계구역 


// unlock ( s ) 


매 TAS ( S ， tem P ) 의 실행은 공유변수 S 에 쓸것 을 요구한다. 이것은 무거 운 기 억기 접 근 
통신흐름을 일으킬수 있 다. 우의 lock ( s ) 실 현은 연산 test - test - and - set 를 사용한다. 첫 번째 
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while 순환은 국부캐쉬에서 S 의 복사를 반복하여 검사한다. 프로쎄스는 잠금 S 가 다른 프 
로쎄스에 의해 해제되 였음을 발견할 때 만 첫번째 while 순환을 떠난다. 


비교와 교체 

compare _ and_swap 명 령 CAS ( S , Old , New , Flag ) 는 공유변수 S 의 값을 국부변수 Old 의 
값과 비 교하는 원자연산이 다. 이 두개 변수의 값이 갈으면 국부변수 New 의 값은 S 에 기 
억되 며 국부 Flag 는 S 가 수정되 였음을 가리 키 는 True 로 설정 된 다. 두 값이 같지 않으면 
변수 Old 는 요의 값을 가지며 기발은 False 로 설정된다. compare _ and_swap 의 의도적 인 사 
용은 다음의 구좌예약코드에서 보여 준다. 

01 d = balance [ X ]; 

do { 

New =01 d _100; 

CAS(balance [ X ], Old , New , Flag ); 

} while (Flag = = False ); 

대비적으로 같은 구좌예약연산은 잠금에 의해 실현될수 있다. 

lock ( s ); 

balance [ X ] =balance [ X ] -100; // read _ modify_write 

unlock ( X ) 


// 공유변수읽기 

// 수정 
// 쓰기 


잠금실현은 전체(읽기와 수정，쓰기) 렬을 호상배제로 만든다. 그러나 
compare _ and_swap 실행은 여러 처리기들이 동시에 읽기와 쓰기를 실행하도록 한다. 쓰기만은 
호상배 제 연산 (CAS 지 령)으로 진행 된 다. 그러 므로 compare _ and_swap 사용의 우월 성 은 critical 
section 의 길이를 바로 한개의 지령으로 줄일수 있다는것이다. 

compare _ and_swap 는 여 러 가지 부족점 들도 가진 다. 

첫째 로，그것 이 저수준구문이 며 사용하기 힘 들다는것 이 다. 

둘째로, 하나이상의 공유변수에 접근하는 트랜잭션을 실현하는데 compare _ and_swap 
를 사용할수는 있지만 힘들다는것이다. 이것은 구좌예약실례를 왜 이 부분에서 사용하는 
가 하는 리 유로 된 다. 구좌이 동트랜 잭 션을 실현하는 compare _ and_swap 코드는 훨씬 더 
복잡하다. 

세 번째 부족점 은 다음의 ABA 문제 이 다. CAS ( S , Old , New , Flag ) 명 령 에서 절대 적 인 
가정 은 01 d=S 일 때 S 는 수정 되 지 않았다는것 이 다. 그러 나 이 가정 은 항상 성 립하지 않 
는다. 실례로 프로쎄스 P 가 구좌 [幻에서 A 딸라의 값을 읽는다고 하자. 그다음 프로 
쎄스 g 는 200$를 표에 예금하여 balance 를 B = A +200 으로 변화시킨다. 그다음 프로쎄스 R 
는 X 로부터 200$를 꺼내서 balance 를 A 로 되돌려 보낸다. 그래서 그후 프로쎄스 P 가 
compare _ and_swap 를 실행 할 때 구좌 표는 여전히 A 딸라를 가지며 구좌는 변경되지 않았 
다고 결론할것 이다. 그러나 실제로 그것은 수정되였다. 
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이 ABA 문제는 간단한 구좌예금코드의 정확성 에는 영향을 주지 않는다. 그러 나 다 
른 경우 특히 공유변수가 지시 자일 때 부정 확한 결과를 초래할수 있다. 

ABA 문제에 대한 해답은 [349] 에서 제안되였는데 후에 많은 현대 RISC 처리기들에서 
실현되였다. 이 기술은 2개의 원자명령을 제공한다. 프로쎄스 P 는 공유변수 S 의 값은 국 
부등록기 Local 에 그리 고 S 의 주소는 국부보존등록기 에 로 읽 기 위하여 read _ and_reserve 명 
령 RAR ( Local , S ) 를 실행 할수 있다. 이 명 령은 또한 보존등록기와 관련된 1 bit 의 꼬리를 
0으로 설정하여 S 가 다른 처 리 기들에 의해 수정 되 지 않았음을 가리킨다. 다음 프로쎄 스 
모는 S 에 대한 새로운 값 New 를 국부적으로 계산할수 있다. 그후 P 는 write _ if_reseved 명 
령 Wm ( S , New , Flag ) 를 실행하여 S 를 갱신한다. 이 지령은 먼저 꼬리가 0인가를 검사한 
다. 만일 0이 면 S 는 New 의 값으로 성과적 으로 갱 신된다. 그렇 지 않으면 갱 신은 실패한 
다. 갱신이 성공하면 기발은 1로 설정되며 그렇지 않으면 0으로 설정된다. 

만일 모가 wirte _ if_reserved 지 령 을 실 행 하기 전에 S 가 다른 프로쎄 스에 의 해 수정 되 면 
보존등록기 의 꼬리는 하드웨 어 에 의해 자동적 으로 1로 설정된다. 


트랜잭션 기 억 기와 Oklahoma 갱 신 

방금 론의한 보존기구는 단일공유변수의 원자적갱신에 적합하다. 최근의 결과는 다 
중보존방법으로 여러개의 공유변수들에 대한 잠금해제의 원자적갱신을 가능케 한다. 

이 방법 은 DEC [30 刀의 Herlihy 와 Moss 그러 고 IBM 의 Stone et al .[589] 에 의 해 독립 적 
으로 개발되였다. DEC 판본은 Transactional Memory 라고 부르며 IBM 판본을 Oklahoma 갱 
신이라고 부론다. 

여기서는 실행에 상세히 들어 가지 않고 프로그람작성자의 견지에서 기본적인 사상 
을 론의한다. 두 그룹은 다중보존이 현재의 캐쉬일관성하드웨 어 의 우월성 을 가지는 다중 
처리기에서 효과적으로 실현될수 있다는것을 보여 주었다. DEC 의 론문은 보다 프로그 
람작성 자지향이 므로 다중보존방법 을 참조할 때 는 술어 트랜잭 션기 억 기 를 사용한다. 트랜 
잭션기억기는 다음의 원자명령들을 가지는 트랜잭션의 효과적인 잠금해제의 실현을 제공 
하는것 이 다. 

• 우에서 론의 한 read _ and_reserve 지 령 RAR ( Local , S ). 

• tentative_write 지령 TW ( S , Local ). 이것은 Local 의 값을 림시적으로 공유변수 S 에 
쓴다. 그러 나 새로운 값은 전체 트랜잭션이 성과적으로 담보될 때까지 다른 프 
로쎄스들에서 보이지 않는다. 

• 담보명령 COMMIT . 이 명령은 다른 프로쎄스들이 이 트랜잭션에서 접근한 공유 
변수들을 갱신하지 않았다면 성공하며 True 를 되돌린다. 그렇지 않으면 그것은 
실 패 하며 False 를 되 돌린 다. 만일 COMMIT 가 성 공하면 그것 은 즉시 에 모든 림 시 
적 인 쓰기를 다른 프로쎄스들에 보이게 한다. 실패하면 모든 림시적 인 쓰기는 버 
려 진다. 

이 지령들을 사용하여 구좌이동트랜잭션은 그림 7-7 에서 보여 준바와 같이 실현될수 
있다. 프로그람은 먼저 공유기억의 읽기와 수정，림시적인 쓰기를 수행한다. 다음 트랜잭 
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션의 담보 ( commit ) 를 시 도하며 트랜잭 션이 성 과적 으로 담보되 면 while 순환을 탈퇴 한다. 
그렇지 않으면 트랜잭션의 시작에 로 되돌아 와 다시 시도한다. 주석 불은 행들은 기 억기 
충돌을 줄이기 위한 지수적 backoff 라고 하는 잘 알려 진 기술을 실현한다. 그 착상은 일 
단 트렌잭션이 중단(즉 담보에서 실패)되면 그것의 다음번 시도까지 일정한 시간동안 지 
연될 것 이 라는것 이 다. 


while ( True ) { 

// 

이 고려 는 트랜 잭 선을 표시한다. 


RAR(oldX, balance[X]) ; 

U 

공유변수를 국부 oldX 로 읽어 넣는다. 


if ( oldX <= 100) break ; 

// 

자금이 불충분하면 트랜적션을 끝낸다. 


newX = oldX -100 ; 

// 

국부 newX 의 값을 계산한다. 


TW(baIance[X], newX); 

// 

구과 표에 림시로 튼다. 


RAR(oldY, balance[Y]) ; 

// 

공유변수를 국부 oldY 보 읽어 명는다. 


newY = oldY + 100; 

// 

국부 newY 의 값을 계산한다. 


TW(balance[Y], newY); 

// 

구좌 Y 에 림시보 쓴다. 


if (COMMITQ) break; 

II 

충분히 담보되면 끝낸다. 

// 

WaitTime=random()%(0 1 «backoflf) ff 그렇지 않으면 

// 

while ( WaitTime - ) ; 


// 지수절층을 하고 

// 

if (backoff<BACKOFFMAX) { backoff++; } 

} 



// 고려로 되돌아 온다. 


그림 7-7. 트랜잭 션기 억 을 사용하는 구좌이 동트랜 잭 션 


우에서 론의한 기술들 
꺼 내 기와 첨 가 ( fetch_and_add ) 

우에 서 론의 한 기 술들(잠금，림 계 구역， test _ and _ set , compare _ and_swap , 트랜 잭 
션기억기)은 원자성을 순차적으로 실현한다. «개 트랜잭션들이 실행될 때 그것들은 한 
번에 하나만 실행되 여 야 한다. 이것은 compare _ and_swap 나 트랜잭 션기 억기와 같은 잠 
금해 제방법 들에서 도 성 립한다. 왜 냐하면 n 개 의 프로쎄 스모두가 «개 의 트렌잭 션모두를 
병 렬로 실행할수 있다 해도 오직 하나의 트랜잭션만이 성과적 으로 담보 ( commit ) 할수 
있 으며 다른 W -1 개 의 프로쎄 스들을 다시 시 도하여 야 하기때 문이 다 . 그러 므로 n 개 의 
트랜잭 션을 실 행하는데 O ( n ) 시 간이 요구된다. 

fetch _ and_add 명 령 Result = F & A ( s , 비는 공유변수 S 의 값을 국부변수 Result 로 되 돌러 고 
국부값 구를 S 에 더하는 원자연산이다. fetch _ and_add 지령은 여러 트랜잭선들의 병렬실행 
을 실제로 가능하게 하는 수단이 다. fetch _ and_add 를 사용하는 구좌예금코드는 바로 한개 
의 명령이다. 

F & A ( balance [ X ],100); 

이 코드는 단순할뿐아니라 이전의 코드보다 더 빠르다. Combining (결합)이 라고 하는 
기술에 의 해 «개 처 리기들이 O ( logn ) 시 간에 n 개의 fetch _ and_add 명 령(이것들은 같은 공유 
변수에 접 근한다.)을 동시 에 실 행하는것 이 가능하다 [38 이. 
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결 합기술은 NYU Ultracomputer [276] 와 IBM RP3[50()] 에 서 하드웨 어 적 으로 실현되 였 다. 
쏘프트웨어적 으로도 실현가능한데 이것은 쏘프트웨 어결합 (software combining )[272] 으로 알 
려 져 있다. 


fetch_and_ O 

Kruskal et al .[38 C )] 은 결합 ( combining ) 이 fetch _ and _ add 에 속박되지 않는 일 반적 인 기 술 
이라는것을 보여 주었다. 그들은 read _ modify _ write 연산들과 이 연산들의 결합에 대한 일 
반적 인 형 식 화를 제 기하였 다. 사실 많은 꾼하산1_011(1_<1>연산들은 결 합될수 있다. 여 기서 $ 
는 임의의 불 ( Boolean ) 또는 산수연산들과 같은 간단한 연산들로 된 하나의 큰 모임이 
다. 만일 같은 공유변수에 접근하는 «개의 fetch _ and _3> 연산이 동시에 실행되면 그것들은 
결합될수 있으며 완료하는데 0( log 2 n ) 시간밖에 걸리지 않는다는것이 밝혀 졌다. 원자성 
을 지 원하기 위 한 fetch _ and _< I > 사용에 는 기 본적 으로 3 가지 부족점 이 있다. 이 문제 점들 
을 아래에 서술한다. 

• 첫번째는 fetch _ and _$ 연산들이 비싼 결합망에 대한 요구로 하여 실제로 현재의 
병렬콤퓨터들의 잠금과 같이 널리 지원되지는 않는다는것이다. 이 부족점은 최 
근의 발전에 의해 완화되였는데 이것은 결합망이 효과적으로 값 눅게 실현될수 
있으몌 204] 결 합 ( combining ) 은 쏘프트웨 어 적 으로 실현될수 있 다는것 을 보여 준 
다 [272]. 

• 두번째 부족점은 f e t C h _ and _3> 가 다만 단일한 공유변수를 원자적으로 갱신할수 
있을뿐이라는것이다. 실례로 꾼的:ᄂ해之①를 리용하여 구좌이동트랜잭션을 실현 
하는것은 더 힘들다. 

• 세 번째 부족점은 보다 치명적인데 fetch _ and _$ 는 저 수준의 민 감한 구조이고 
test _ and _ set 나 compare _ and _ swap , 트랜잭션기 억보다 더 복잡하며 따라서 일반 
프로그람작성자가 정확히 사용하기 더 힘들다는것이다. 

7. 2. 4. 고속잠금기구 

두가지 형태의 동기화연산 즉 잠금과 장벽이 현재의 공유기억기다중처리기들에서 이 
미 지배적이다. 이 책에서는 장벽이 조종동기화구성적인것으로 하여 훨씬 더 단순한 의 
미를 가지기때문에 잠금에 초점을 둔다. 효률적인 또는 하드웨어화된 많은 동기화의 실 
현이 존재한다. 

실 례 들은 Johnson et al.[351] , Scott[540], Shang 과 Hwang[552] 에 서 찾아 볼수 있 다. 
또한 현재의 병렬프로그람작성언어의 다른 동기화구성들도 흔히 잠금에 의해 실현된다. 

최 근에 기 억 기 나 망통신흐름을 줄이고 분쟁 문제 를 완화시켜 잠금의 부가프로쎄 스를 
낮추는데 목적을 둔 효과적인 잠금에서는 많은 전진이 이록되였다. 이 잠금기구들은 흔 
히 호상배 제문제 를 푸는데 사용된 다. 이 로부터 이 것 들을 고속호상배 제알고리 듬이 라고도 
부론다. 현재의 상업체 계들은 거의다 하드웨 어알고리듬을 사용한다. 

여 기서 는 기 본적 인 착상을 설명 하기 위하여 두개의 하드웨 어알고리 듬에 대 하여 론의 
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한다. 

호상배제에 관한 최근의 좋은 론문은 Zhang at el.[655] 인데 여기서 저자들은 여러개의 
제 안된 하드웨 어 및 쏘프트웨 어 호상배 제 알고리 듬들의 성 능을 비 교하고 있 다. 
Kontothanassis et al.[374] 는 여 러 가지 하드웨 어동기 화알고러 듬들을 다중프로그람작성 의 견 
지 에 서 실 례 로 여 러 프로쎄 스들이 한 처 리 기 우에 서 실 행 되 도륵 하는 견지 에 서 평 가하였 다. 

입 장권 알고리 듬 (Ticket Algorithm) 

기본착상은 Zhong et al.[66 到로부터 채택된 다음의 코드에서 보여 주는바와 같이 매 
개 프로쎄 스가 먼저 입 장권을 가진 다음 critical section 실 행 을 위 하여 자기 의 순서 를 기 
다리 는것 이 다. 


int Ticket=0, Tum=0; 
parfor( i=0;k<n;i++ ) 

{ int Myticket; 

wMle( Condition ){ 


// 공유변수를 0 으로 초기화 
// n 개의 프로쎄스틀이 있다 
// 국부변수 


independent computation,noncritical section 


Myticket=FAA(Ticket,l); { 
while( Myticket!=Turn ) 
Delay(Myticket_Tum); 
critical section 



// 이 3 개의 행은 
// 잠금연산과 
// 같다 

// 잠금해제 

// 호상배제코드의 탈되점 


independent computation,noncritical section 


매 프로쎄스 모는 그림 7-8 에서와 같이 3 개의 변수를 사용한다. 국부변수 Myticket 는 
패 쉬 나 국부기 억 기 에 기 억 되 며 다른 프로쎄 스들 이 접 근할수 없 다. 두개 의 대 역 변수 Ticket 
와 Turn 은 모든 프로쎄 스들이 접 근가능한 공유기 억 기 안에 있 다. 



처 리 기 


L Mvticket ' 

Z 一一一一 " 


( Ticket ) 


그림 7-8. 입장권알고리듬에서 변수분포 


critical section 에 들어 가기 위 하여 프로쎄 스 모는 먼 저 Ticket 의 수를 국부변수 
Myticket 안에 넣 고 Ticket 를 1 증가시 키 기 위 하여 원자적 인 fetch_and_add 지 령 을 실 행 한 
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다. 그다음 프로쎄스는 자기 차례가 되기를 기다리면서 회전한다. 공유변수 Turn 을 읽는 
회수를 줄이기 위하여 프로쎄스 P 는 Turn 을 다시 읽기전에 1 회기간동안 지연한다. 이 
지 연시 간은 프로쎄 스 P 의 앞에 서 critical section 을 실 행 하려 고 기 다리 는 프로쎄 스의 수인 
Myticket 와 Turn 의 차에 비 례 한다. critical section 을 실 행 한후 프로쎄 스 P 는 Turn 을 증가 
시 킴 으로써 잠금을 해 제한다. 

Tum=Tum+l 이 read_modify_write 연산이 지 만 원 자적 이 지 말아야 한다는데 주의 하시 
오. 입장권 알고리듬은 원자적 fetch_and_add(fetch_and_increment) 지령을 제공하는 다중처리 
기들에 적당한 간단한 회전잠금방법이다. 그것은 FIFO 속성을 자진다. 즉 더 작은 표번 
호를 얻 는 프로쎄 스들 이 먼저 critical section 을 실 행한다 . 이 때 두개 의 정 수변수 Ticket 와 
Turn 이 초과되지 않도록 담보하여 야 한다. 

배 렬 련결 식 알고리 듬 ( Array _ link_Based Algorithm ) 

입장권알고러듬에서 w 개의 처리기들은 두개의 변수 Ticket 와 Turn 에 접근하여야 한 
다. 충돌을 줄이 기 위하여 알고리 듬은 Ticket 에 접 근하고 증가시 키 기 위해 하나의 
fetch_and_add 를 사용한다. 모든 n 개 처 리 기 들은 결 합기 술을 리 용하여 2f M xlog« 개 주기 
동안 입장권 (Ticket) 을 가질수 있다. 여기서 개 주기공유기 억기접근이 요구된다. 


Acquire_Lock(short NodelD ， short Lock) 

{ 

int Pred; 

P: 

Lock_q[NodeID]->Successor = Nil; 

公 

Pred = Fetch_and_Store(Lock, NodelD) ; 

R: 

if(Pred!=-i_){ 一 

Lock_q[NodeID] ->Get_Lock = 0 ; 
Lockq[Pred]->Successor = Lock_q[NodeID] ; 
while (Lock q[NodeID]->Get Lock != 1) ; 

} 

} 

Relea 

se_Lock(short NodelD, short Lock) 

{ 

int Pred ; 

X: 

if (Lock_q[NodeID]->Successor != Nil) 
Lock_q[NodeID]->Get_Lock = 1 ; 
eke { 

Y\ 

Pred = Fetch and Store(Lock, -1) ; 

2: 

if (NodelD !=Pred){ 

Pred = Fetch_and_Store(Lock ? Pred) ; 
while (Lock_q [NodelD] -> Successor ;= 0) ; 

} 

Lock q[NodeID]->Successor->Get Lock ; 0 ; 

} " 

} 


그림 7-9. 배 렬 련결식 잠금지 령 들 
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매 처리기는 Turn 을 국부등록기 또는 캐쉬에로 복사할수 있으며 Turn 이 잠금을 해제 
하는 다른 처 리기 에 의해 수정될 때까지 국부복사우에서 돈다. 경쟁을 더 줄이기 위하여 
Zhang et al .[665] 이 제기 한 다음의 배 렬련결식 알고리듬에서와 같이 잠금이 분산될수도 있 
다. 이것은 Mellor _ Crammey 와 Scott [441] 이 개발한 알고리듬으로부터 개작되였다. 배렬련 
결 식알고리 듬은 다음의 자료구조들을 사용한다. 공유변수 Lock 는 값 -1 로 초기 화된 다. 


typedef struct MLINK{ 

struct MLINK * Successor ; short Get _ Lock ; 

} Mlink ; 

short Lock ， NodeID ; 

Mlink * Lock_q [ Num _ Proc _ 1 ]; 
int Node Count ; 

처 리 기 의 NodelD 는 Lock 를 획 득 하 고 해 방 하 기 위 하 여 2 개 의 절 차 
Acquire_Lock(NodeID, Lock ) 와 Release_Lock(NodeID, Lock ) 를 사용한다. 이 절차들의 상 
세 는 그림 7-9 에 제시한다. 이 절차들을 어 떻게 사용하는가는 문제 7.5 에 남긴다. 

7. 3. TCP/IP 통신규약 

망상에서의 통신은 보통 규약층들의 탄창으로 실현된다. 규약은 자료형식과 자료 
를 망우로 어떻게 전송하는가를 지배하는 규칙들의 모임이다. 

규약탄창은 규약조로도 알려 져 있다. 이 부분에서는 TCMP 조라고 하는 표준적인 
통신규약을 론의한다. 비표준적 이지 만 더 효률적 인 규약들은 7.4 에서 론의한다. 

먼저 7.3.1 에 서 TCMP 조의 기 본특징 을 요약한다. 그다음 7.3.2 에 서 가장 자주 리용하 
는 3개의 규약들 ( UDP , TCP , IP ) 과 그것들이 이써네트우에서 어떻게 실현되는가를 론의한 
다. 

임 의의 프로그람이 나 응용들에서 이 것들을 실현하기 위하여 프로그람작성 자는 응용 
프로그람대 면부를 요구한다 . 

7.3.3 에 서 UDP / IP 나 TCP / IP 러용에 사용할수 있는 소케 트라고 하는 표준 API 를 서 술 
한다. 

7. 3. 1 . TCP / IP 조의 특징 

널 리 알려 진 2개 의 규약탄창을 그림 7-10 에 서 보여 준다. 7층열린체 계호상접 속 ( OSI ) 
탄창은 국제 규격 화기 구 ( ISO ) 에 서 개 발하였 다. 이 규격 은 널 리 실현되 지 는 않았지만 통신 
구조의 개 념들과 전문용어를 명백 히 하는데 위 력하다. 

보통 TCP / IP 조로 알려 지 고 인 터네 트활동위 원회 (Internet Activities Board , …미가 개 
발한 인터네 트통신탄창은 널 리 사용되 고 있으며 사실상 표준으로 되 였 다. 
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' OSI 계총 L. 네트조 ( TCP/IP 조 ) 

그림 7-10. OSI 와 인터네트통신규약탄창들 


망안의 두개의 콤퓨터(흔히 호스트라고 부론다.)사이에 통보문을 넘기기하는것은 복 
잡한 동작이다. TCP/IP 조는 이러한 복잡성을 극복하기 위하여 계층화된 구조를 사용한 
다. 그것은 모든 통신규약조들에 공통인 여러개의 특징들을 가진다. 


• 층 규약층들의 탄창은 통보문넘기기에 사용된다. 매 규약층은 특수한 기능들의 
모임 을 수행하는데 제 공되 며 직 접 닿은 아래 옷층과 직 접 호상작용한다. TCP/IP 
조자체는 3개의 층 즉 응용층 (FTP 와 TELNBT, SMTP, SUMP 와 같은 규약들을 
포함)과 전송층 (TCP 와 UDP 규약을 포함)，망층 (IP 를 포함)을 가진다. 조는 통신 
하드웨 어 에 의 존하는 망접 근층들에 서 동작한다. 

• 자료교갑화 응용의 프로쎄스가 자료조각을 망으로 전송하려면 통보문을 형성하 
기 위한 어 떤 특별 한 정 보를 자료에 부가하여 야 한다 . 이 특별 한 정 보는 자료 
의 뒤에 부가될수도 있지만 보통 머리부 (header) 라고 부론다. TCMP 조와 같은 
규약탄창에서 아래층은 더 높은 층의 전체 통보문을 자기의 자료로 취하고 머 리 
부를 부가하여 자기 의 통보문을 구성한다. 더 낮은 층은 더 높은 층의 통보문형 
식 에 관심 을 가지 거 나 리 해 하지 않는다. 이 것 은 그림 7-1 1 에 서 설 명 하는바와 같 
이 자료교갑화라고 한다. 

• TCP 층은 응용통보문에 9개 마당의 TCP 머 러부를 부가하여 TCP 토막이라고 부 
르는 전송층통보문(통보문이 크면 여 러개의 토막)을 구성한다. 

• IP 층은 TCP 토막에 11개 마당의 IP 머 리 부를 부가하여 IP 자료문이라고 하는 망층 
통보문을 구성한다. NAP 층은 IP 자료문에 6개 마당의 이씨네 트머 리 부를 부가하여 
이써네 트프레 임 이라고 부르는 NAP 층통보문을 형성한다. 인터네 트프레 임 에서 
CRC 마당은 자료의 뒤 에 온다는데 주의해 야 한다. 

• 동등계층 한 호스트안의 매개 층은 다른 층들에 상관없이 다른 호스트의 같은 층 
과 대화한다. 실례로 한 호스트는 이써네트에 접속되고 다른 호스트는 FDDI 에 접 
속되 여도 IP 층은 IP 자료문들이 같은 규약에 따라 전송된다는것을 알고 있다. 
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열린 대면부 매층은 웃층에 열린 대면부를 제공한다. 가장 중요하게 응용층은 
TCP / IP 봉사들에 접 근하기 위하여 소케 트나 TLI(Transport Level Interface ) 를 사용 
할수 있다. TCP 와 UDP , IP 는 보통 핵심부에서 실현되므로 이 대면부들은 체계 
호출들의 모임으로 나타난다. 


응용규약 

응용층규약은 규약조가 실현한 기능들에 대한 사용자대면부를 제공한다. 이것은 또 



그림 7-11. 이써네 트의 TCP/IP 에서 여 러 가지 자료형 식 
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한 원천지의 프로쎄스들이 보낸 통보문은 정확한 목적지의 프로쎄스에 도착한다는 가정 
하에서 응용특정의 문법적，의미적문제들로 취급된다. 

이 문제 들은 작은 골 (little-endian) 호스트와 큰 끌 (big - endian) 호스트가 넘 기 기 받은 통 
보문으로부터 같은 론리 적자료를 보도록 담보하는것 과 트랜잭 션프로쎄 스체 계 등에 서 
ACID 속성들을 가지도록 하는것을 포함한다. 

TCP/IP 조가 지 원하는 많은 응용규약들이 존재한다. 가장 널 리 사용되 는 응용규약들 
은 다음과 갈다. 

• 국부프로쎄 스와 원격호스트의 파일 체 계 사이 에 파일 들을 전송하기 위한 FTP(File 
Transfer Protocol) 

• 원격 호스트에 로 련결 하기 위 한 TELNET 

• 우편 봉사를 위한 SMTP(Simple Mail Transfer Protocol) 

• 콤퓨터 망의 조종과 감시 를 위한 SNMP(Simple Network Management Protocol) 

• WWW 응용들을 위 한 HTTP(Hyper-Text Transfer Protocol) 

망주소화 

응용층규약은 밑 에 있는 규약들에 원격호스트에 있을수도 있는 목적지 (와 원천지)프 
로쎄스의 주소도 알려 야 한다. 이것은 아래와 같이 (IP 주소, 포구)쌍으로 주어 진다. 

159. 226. 43. 150. 23 호스트 IP 주소, 포구번호 

IP 주소는 임의의 목적지호스트를 유일하게 식 별하며 포구번호는 목적지의 포구 또는 
규약을 가리 킨다. 국부 Unix 호스트의 현존 포구번호들은《 more/etc/servies 》를 건반입 력 하 
여 찾을수 있다. 포구는 전송층통신의 종단점(끝점)이 다. 전송층통신은 항상 한 포구로 
부터 다른 포구에로 진행된다. 

포구번호는 16bit 정수로서 호스트당 64k 개의 포구들이 있을수 있다. 0부터 1023까지 
의 포구번호들은 뿌리 사용자를 위하여 예 약되 여 있 다. 대부분의 예 약된 포구번 호들은 잘 
알려 져 있으며 누구나 그러한 포구번호들이 규약이 나 봉사 그리 고 그외의것 에 사용되는 
데 동의한다 . 

실례로 포구번호 23은 잘 알려 진 포구번호로서 TELNET 규약에 사용된다. TELNET 
규약을 제공하는 체계를 사용하려고 하는 임의의 프로쎄스는 포구번호 23을 사용하여야 
한다. 


7. 3. 2. UDP, TCP, IP 


TCP/IP 조는 2개의 전송층규약 즉 TCP 와 UDP 를 포함한다. 이것들은 다 IP 라고 하는 
단일한 망층규약우에서 동작한다. 

사용자 자료문규약 (User Datagram Protocol, UDP) 

UDP 는 대 단히 간단한 전송층규약이다. UDP 의 단순성 이 효률성은 제공하지만 기능 
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성은 적게 제공한다. 단순성은 그림 7-11 에서 보여 주는바와 같이 단순한 자료문형식으 
로부터 흘러 나온다. UDP 머리부는 4개의 16bit 마당 즉 원천포구주소, 목적지포구주소, 
UDP 자료문의 총 바이트길이， UDP 자료문의 검사합만을 포함한다. 목적지포구와 자료문 
길이는 항상 요구되지만 나머지 두개는 선택적 이다. 

원천지포구는 응답이 기대될 때만 필요하다. 원천지포구와 검사합마당이 사용되지 
않으면 0으로 채 워 진다. 원천지호스트가 목적 지호스트로 UDP 를 사용하여 일부자료를 
보낼 때 먼저 그림 7-11 과 같이 UDP 자료문을 구성한다. 그다음 두 호스트의 UDP 쏘프트 
웨어는 협 력하여 자료문을 목적지호스트에로 넘기기하며 그 다음자료를 추출한다. UDP 
자료문은 길 이를 제 한한다는것 을 명 심하여 야 한다. 넘 기 기되 여 야 할 자료가 크면 송신 
자는 그것을 더 작은 토막들로 나누고 분할된 자료문으로 넘기기하여야 한다. 

목적지호스트는 역 시 이 자료문들을 분할된 통보문들로 접수하고 그것들을 원래 의 
자료로 다시 조립하여 야 한다. 자료문은 목적지 에 순서 가 없 이 도착하거 나 전혀 도착 
하지 않을수도 있다. 이 속성 들은 UDP 를 비접 속성 규약， 가장 효률적 인 규약으로 되 
게 한다. 

이것은 우편국에 의한 편지보내기와 같다. UDP 는 송신자가 접속을 확립하지 않고 
자료를 보내는 비접속성이다. 물론 많은 량의 자료는 개별적인 자료문으로 싼 다음 갈라 
서 넘기기한다. 

TCP 에 서 송신자는 먼저 접속이 확립 된 다음 자료를 개 별적 인 자료문으로서가 아니 
라 련속적 인 흐름 (stream) 으로 보낸 다. UDP 는 통보문자료문령 역 을 유지 하지 만 TCP 는 그 
렇게 하지 않는다. 

UDP 는 우편을 배 달하기 위하여 최 선을 다하는 우편국과 같이 담보가 없기때 문에 최 
대의 노력이 드는 규약이다. UDP 자료문은 넘기기도중에 오유가 생기거나 단순히 잃어 
버 릴수 있다. 수신측 UDP 는 오유를(검사합을 통하여) 검사하여 오유가 생긴 자료문은 
버 린다. 

UDP 는 담보된 배달이 중요치 않는 영상/음성통보문전송이나 때때로 파케트를 잃어 버 
리는것 이 성능에 크게 영 향을 주지 않을 때 적 당하다. 만일 믿음직 한 통보문이(하나의 bit 도 
흘러면 안되는 프로그람이 나 자료파일전송) 요구되 면 응용층에서 믿음직 한 통보문넘기기기 
능을 실현하거나 TCP 로 절환하여야 한다. 


전송조종층 (Transmission Control Protocol ， TCP) 

TCP 는 UDP 보다 더 강력 하고 복잡한 전송층규약이 다. TCP 는 믿 음직 한 통보문배달을 담 
보하는 접속지향의 규약이다. 이것은 전화로 통보문을 보내는것과 같다. 두 단체는 먼저 접 
속을 확립한 다음 통보문을 넘기기한다. 오유발견과 응답，재전송기구들에 의하여 통보문은 
믿음직하게 넘기기되고 정확히 순서 짓도록 담보된다. 

TCP 는 쌍방향규약이다. 즉 자료를 나르는 토막들은 원천으로부터 목적지로 보내여 
지며 빈 자료마당을 가진 응답토막들은 반대방향으로 넘기기된다. 

TCP 머 리부(그림 7-11) 는 9개의 마당을 포함한다. 원천포구와 목적지포구，검사창마당들은 
UDP 머 리부의것과 류사하다. 기발들과 선택적 인 마당들은 무시한다. 

긴급지 시기 (urgent pointer) 마당은 일 단 목적 지 의 TCP 가 자료를 접 수하면 즉시 목적 지 
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의 프로쎄 스에 보내 야 하는 토막의 자료바이 트의 수를 가리킨다. TCP 머 리 부에 는 토막길 
이 마당이 없 다. 왜 냐하면 토막길 이 는 TCP 가 계 산하기때 문이 다. TCP 는 통보문들을 흐름 
(s 仕 earn ) 으로 넘기기한다. 즉일단 TCP 접속이 확립되면 하나 또는 그이상의 통보문들이 
접속을 통하여 흐름으로 보내여 진다. 

목적지 에서 TCP 는 이 흐름을 TCP 토막들로 나누고 토막들을 통보문으로 재조립하여 
야 한다. TCP 는 또한 순서 가 바뀐 토막들과 중복된 토막들, 믿음직한 넘 기 기，흐름조종 
을 처 리하여 야 한다. 

나머 지 3개 마당들은 이 목적 을 달성하는데 사용된 다. 

순서번호는 원천 TCP 에 의해 채 워 지 며 흐름의 기 초주소로부터 토막의 첫 번째 바이 
트의 바이 트상대 주소를 가리킨다. 

이 것은 목적지 TCP 가 순서 가 바뀌거 나 중복된 토막들을 관리하는데 사용된다. 응답 
번호는 토막이 수신된다는것 을 가리 키 기 위하여 목적 지 TCP 에 의해 채 워 진다. 

창문크기 도 목적 지 TCP 에 의해 채 워 지 는데 목적 지 TCP 가 받기 위하여 준비 되 여 있 
는 현재 의 응답된 토막이외 의 자료의 량을 가리킨다. 이 값은 흐름조종에 사용되 며 이 
접속에 리용가능한 목적지 TCP 의 완충기령역에 의존한다. TCP 는 이 정보를 다음번에 보 
내야 할 토막의 길이로 선택하는데 사용한다. 

길 이선택알고리듬은 높은 대 역너 비를 유지 하는 한편 목적지쪽의 혼잡을 조종하려고 
노력 한다. 

TCP 는 믿음직한 통보문넘기기를 위한 재전송에 응답을 사용한다. 원천지쪽의 시 간 
기 록기 는 토막이 보내질 때 활성 화된 다. 목적 지 TCP 는 토막을 수신할 때 응답을 돌려 
보낸다. 시간계수기가 끝나기전에 원천지가 응답을 수신하면 시간계수기는 취소된다. 시 
간계수기가 끝났을 때 응답이 수신되지 않으면 원천은 같은 토막을 다시 보낸다. 이 방 
법은 여러 문제점을 가진다. 

첫째로, 원천지가 새로운 토막을 보내기전에 응답의 도착을 기다리면 대역너비가 영 
향을 받는다. 원천지가 응답을 기 다리 지 않고 련속적 으로 토막들을 보낼 수 있 다고 생 각 
할수 있다. 그러 나 이것은 목적지 의 완충기 를 빨리 포화시키 며 여 러 가지 엄 중한 망혼잡 
을 일으켜 지연을 증가시키고 대역너비를 줄인다. 더우기 재전송은 목적지에 보내는 한 
개 토막에 대한 여러개의 복사를 일으키며 혼잡을 더욱 악화시킨다. 

TCP 는 이러한 문제들을 풀기 위하여 미끄럼창문흐름조종기구를 사용한다. 원천지는 
련속적으로 토막들을 내보내게 되는데 이것은 창문크기를 웃한계로 가지며 따라서 엄중한 
목적지측의 혼잡을 일으키지 않는다. 목적지는 보내온 매개 토막들에 응답하지 않는다. 

그림 7-12 에 서 고정 된 토막크기 는 10 kB 이 고 초기창문크기 는 100 kB 또는 10개 토막 
이라고 가정하자. 초기의 창문은 토막 1〜10을 포함한다. 

토막 1부터 m 까지 보낸후 원천지는 토막 1부터 5까지 수신되 였 다는것 을 알리 는 
응답을 수신한다. 목적지는 응답과 함께 새로운 창문크기를 8개 토막으로 하자는것을 
보낸다. 

이제는 창문이 토막 6부터 13까지를 포함하도록 오른쪽으로 미끄러 진다. 

다음원천지는 토막 11부터 13까지 보내는데 성공한다. 토막 6부터 10까지는 망에 있 
다는것 즉 그것들이 전송은 되 였지 만 아직 응답되지 않았다는데 주의하여 야 한다. 그것 
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들은 목적지로 가는 도중에 있거나 그것들이 도착하였지만 목적지가 응답을 보내지 않았 
거나 응답이 보내졌지만 원천지에 아직 도착하지 않았을수 있다. 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 화 


응답된 토막 ᄂ ᅯ 아직 응말되지 않은 토막 

^ 망안의 토막 j 


송신된 토막 아직 송4되지 않은 토막 

그림 7-12. TCP 흐름조종에서의 미끄러 지는 창문기구 

인 터네 트규 약 (Internet Protocol, IP) 

IP 의 기 본기 능은 하나이상의 LAN 으로 구성 되 는 인터네 트워 크 (인터네 트)의 한 호스 
트로부터 다른 호스트로의 통보문들의 경로를 정하는것 이다. 즉 통보문은 경로기(관문으 
로도 알려 져 있다.)라고 하는 하나 또는 그이상의 중간마디들을 통과한다. 

인터네 트우의 임의의 호스트는 유일한 IP 주소를 가진다. 

경로기는 적어도 2개의 LAN 들에 접속되며 하나이상의 IP 주소를 가진다는데서 보통 
의 호스트와 차이난다. 경 로기 의 기 본기 능은 인터네 트에서 IP 자료문들의 경 로를 정 하는 
것이며 한편 호스트는 보통 다른 목적(실례로 탁상 PC , 파일봉사기, 계산봉사기 등)들에 
사용된다. 

IP 는 그것 이 비접속성 이 고 최대의 노력 이 드는 규약이 라는데서 UDP 와 비슷하다. IP 
자료문들은 순서없이 도착하거 나 잃어 질수도 있다. IP 는 웃쪽의 층들이 이 문제 를 해 결 
하게 한다. 

그림 7-13 에서 호스트 A 가 자료문을 호스트 Z 에로 어떻게 보내는가를 서술함으로써 
IP 기 구를 설 명한다. 
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그림 7-13. 3 개 의 경 로기 에 의해 련결된 4 개 의 LAN 들을 가진 인 터네 트 





















































호스트 A 의 IP 쏘프트웨어모둘은 일단 요청을 받으면 국부적으로 표를 검사하며 호스 
트 Z 가 같은 LAN 우에 없다는것을 발견하면 자료문을 경 로기 I 로 보낸다. 이 경 로기는 한 
번 더 경로를 정하고 자료문을 경로기 II 나 경로기 IE 으로 전진시키며 그다음 자료문을 
최 종적 인 목적 지 호스트 Z 에 보낸 다. 

경 로정 하기기 능은 자료문안의 원천 및 목적 지 IP 주소를 사용한다. 경 로정 하기 외 에 IP 
층은 다음의 2가지 기능을 제공한다. 

• 분할과 재조립 

인터네트망의 LAN 들은 서로 다른 형태이며 최대파케트크기에 대한 제한도 서로 
다르다. 그래서 IP 는 큰 자료문을 여러개의 더 작은 파케트들로 분할하고 그것 
들을 재조립하여야 한다. 이 기능은 IP 자료문의 다음의 마당들 즉 전체 길이와 
식 별 자，토막상대 주소와 기 발들, 원 천/목적 지 IP 주소들을 리용한다 . 

• 오유통지 

오유가 있는 경우 오유를 포함한 호스트들은 통지되여야 한다. 

봉사형 태마당은 앞서 기(우선권)와 믿음성 , 지 연，처 리 량에 대 한 요구를 서술한다. 

생 존시 간 ( time _ to _ U ve ) 마당은 자료문의 수명 을 주며 죽은 자료문을 파괴할 때 리용 
된다. 그렇지 않으면 자료문은 끝없이 돌것 이며 적당치 않는 경로정 하기로 망을 방해 
한다. 

규약형 태마당은 어느 전송규약 ( TCP,UDP 등)이 IP 를 사용하는가를 서 술한다. 식 별자 
마당은 규약형태와 원천/목적지 IP 주소와 함께 자료문을 유일하게 식별한다. 

7. 3. 3. 소케트대면부 

소케 트는 TCP / IP 조를 사용하기 위한 API (즉 자료형 태 와 기 능들의 모임 )이 다. 소케 트 
는 원래 Berkeley Unix(BSD 4.2) 에서 실현되였다. 지금 그것은 Microsoft Windows 가동환 
경은 물론 거의 모든 유닉스체계들에서 실현된 사실상의 표준으로 되였다. 

두개의 프로쎄스가 소케트대면부로 통신을 하려면 먼저 그들 매개가 소케트를 창조 
하고 어느 통신규약을 사용하는가를 서술한다. 그다음 그것들은 각각의 소케트에 대한 
읽기/쓰기로써 통신을 한다. 

소케트쏘프트웨어는 실제적 인 통신의 수행을 담당한다. 여 기서는 훨씬 단순화 
한 령 역이름봉사기를 가지 고 소케 트대 면부의 기 본사상을 설명한다. 

비 접 속실 현 (UDP) 

UDP 실현을 위한 프로그람골조를 그림 7-14 에 제시한다. 봉사기와 의뢰기는 모두 처 
음에 소케트기능에 대한 봉사를 호출한다. 

목적은 변수 Mysocket 로 지적된 하나의 소케트를 창조하는것이다. 3개의 점들 (...) 은 
인수들을 가리 키 는데 여 기서 는 관심을 돌리지 않는다. 상수 AF _ INET 는 인터네트망의 령 
역 주소 ( IP 주소)가 소케 트주소화형 식 으로 사용된 다는것 을 가리키 며 sock _ DGRAM 은 
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main () 


My socket; jocfe/(AF_INET, SOCKDGRAM, …); 

bind{ My socket,...); 

recvfrom{ My socket, Hostname,...) ; 

host IP = NameToIP(Hostnarae); 

sendt (次 Mysocket, host IP, .„); 


t ) 봉사기코드寒 i 


main (int argc, char *argv[]) 

{ 

My socket = socket{A¥JNET, SOCK_DGRAM,...) ； 
公 o(Mysocket, argv[l],...); 
recv 々 o?n(Mysocket ， host_IP,...); 


l ) 의뢰기 is 골조 


그림 7-14. UDP 소케트를 사용하는 단순화된 령 역이름봉사기의 코드골조 


UDP 가 사용된 다는것 을 가리 킨 다 . 

다음 봉사기는 bind 함수호출에 의해 소케트를 포구번호에 련결한다 ( bind ). 의뢰기는 
명확히 련결하지 않고 련결할 포구번호를 자동적으로 선택할것을 체계에 맡길수 있다. 

소케트가 구성된후 의뢰기는 sendto 함수를 리용하여 호스트이름을 봉사기로 보낸 
다. 봉사기는 recvfrom 함수로 그 통보문을 접수한 다음 그것을 국부함수 NameToIP 를 실 
행하여 대응하는 IP 주소로 변환하며 그 IP 주소를 sendto 함수에 의해 의뢰기로 돌려 보낸 
다. 의 뢰 기 는 recvfrom 함수에 의 해 IP 주소를 접 수한다. 

접 속지 향실 현 (TCP) 

TCP 실현을 위한 코드골조를 그림 7-15 에 제 시한다. 소케 트창조와 련결 ( binding ) 은 상 
수 SOCK_STREAM 이 TCP 의 사용을 가러 키 는것 을 제 외 하고 UDP 실현과 비 슷하다. 

UDP 와 달리 TCP 는 접속지 향이 다. 봉사기는 listen 함수를 실행 하여 접속을 받기 위 하여 
준비 되 여 있 다는것 을 핵 심 부에 알린 다 . 다음 봉사기 는 accept 함수를 실 행 하여 의 뢰 기 로부터 
접속요청 을 받기 위하여 기 다린다. 이 함수는 의뢰 기 가 connect 함수를 실행하여 접속할 때 
까지 귀환하지 않는다. 확립된 쌍방향접속은 보통의 파일과 득같이 동작하며 파일지시기 
斤로 지시된다. 이제는 봉사기 가 파일접 근과 꼭같이 접속에 읽 기/쓰기함으로써 의뢰기 와 
통신할수 있다. 

모든 통신 이 진행 된후에 봉사기 는 close ( fP ) 를 실 행하여 접 속을 닫는다. 
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main () 


Mysocket = jocA ： ef(AF_INET, SOCK STREAM,...) ； 

bind{ Mysocket,...); 

listen{ Mysocket,...); 

fp = accept{ Mysocket,...) ; 

read (fp. Hostname,...); 

host_IP = NameToIP(Hostname); 

write(fp, host_IP,...); 

dose ( 市 ) ; 


1) 틀세!#드골조 


main (int argc, char *argv[]) 

{ 

Mysocket = socket(AF_INET, SOCK_STREAM, …) ; 
connect( Mysocket,...); 
write (Mysocket, argv[l], … ) ; 
read (Mysocket, host IP,...); 



그림 7-15. TCP 소케 트를 사용하는 단순화된 령 역이름봉사기의 코드골조 


7. 4. 고속효률틍신 

망의 원대 역 너 비 (raw network bandwidth ) 는 지 수적속도로 개 선되 고 있으며 5년마다 
거의 10배씩 증가되 고 있다. 기가비트망들은 현재의 고성능콤퓨터 ( HPC ) 체계들에서 매우 
대중적이다. 테라비트망들은 연구소에서 실현되였다(실례로 후지프는 1996년 2월에 1.1 
Tb / s 의 전송을 달성하였다.:). 

원대 역너 비와 사용자가 실제적으로 달성 할수 있는것 사이 에는 큰 간격 이 존재 한다. 
표 7-3 은 여 러 HPC 체 계 들의 최 대 대 역 너 비 와 유효대 역 너 비 들을 비 교한다 . 

점 근선적인 대역 너비와 지연은 MPI 점 대점통신으로 측정된다. 유효대역 너비는 128 B 
통보문을 가지고 공식 

유효대 역 너 비 = 통보문길 이/통신시 간 (7.1) 

에 의해 평 가된다. 

표 7-3 의 자료는 효률적 이 라고 생 각되 는 통신하드웨 어 와 쏘프트웨어 로부터 얻 어 진다. 


355 



하드웨어의 최대대역너비와 유효대역너비사이의 간격은 상용망들(실례로 이써네트)들과 표 
준적인 규약들(실례로 소케트)을 사용한다면 더 넓어 진다. 이 간격을 줄이려면 통신성능 
을 정밀하게 꽉 채우는 요인들을 리해 하여 야 한다. 


7. 4. 1 . 통신에서 중요한 문제 

많은 요인들이 통신부분체계의 성능에 영향을 준다. 중요한것들을 아래에 렬거한다. 

• 통신하드웨어 마디의 기억기와 ！/ ◦구조, 망대면부，망을 포함한다. 

• 통신쏘프트웨 어 쏘프트웨어 구조와 알고리 듬들을 포함한다. 

• 사용자환경 다중사용자，다중처 리，다중프로그람작성을 지원하는가， SPMD 모형을 
사용하는가 등을 포함한다. 

• 제공된 통신봉사들 통보문넘기기와 흐름조종，고장처리，보호 등을 포함한다. 


표 7-3 _ 4 개의 HPC 체계의 최대 및 유효대역너비들 


파라메 터 

값 

기억기 

디스크구동 

테프단 

용량 

단가 

64Mb/die 

0.2Mb/mm 1 2 

0.1-0.4 Mb.mm 2 

체계 

32-128MB 

2-4GB 

8-16GB 

개선률 

2X per 2 yr 

25-60% per yr 

10X per 10-21 yr 

접 근시 간 

현재 값 

60ns 

10-25ms 

Seconds 

개선률 

3X per 12 yr 

21X per 10 yr 

N/A 

대역 너비 

현재 값 

500-1000MB/S 

1-5MB/S 

0.5-4 MB/s 

개선률 

N/A 

2X per 5 yr 

2X to 6X per 10 yr 


통신하드웨 어 (Communication Hardware) 

일 반적 인 통신 하드웨 어구조를 그림 7-16 에 보여 준다 . 성 긴결 합형구성 방식 에 서 
NIC 는 마디 의 I/O 모선(실 례 로 PCI) 에 련결된다. 한 마디 에 서 다른 마디 로 가기 위하여 
통보문은 송신마디의 기 억기로부터 기 억기모선， I/O 모선， NIC 를 통하여 망에 로 간다. 수 
신측에서는 반대순서 로 같은 경 로를 지 나가야 한다. 달성 가능한 통신대역너비는 통신경 
로의 가장 느린 구성 요소에 의해 제 한된 다. 


실례 7.4. 콤퓨터들의 클라스터에서 병목들 

클라스터는 800MB/S 의 기억기모선과 133MB/S 의 I/O 모선， 200MB/S 의 NIC DMA 를 가 
지는 마디들을 사용한다. 다음의 두가지 물음이 제기되고 있다. 

(1) 만일 통신망이 1 Gb/s 의 최 대 속도를 가진 다면 통신대역너 비 상의 하드웨 어 제 한은 
무엇인가? 

(2) 망이 400MB/S 로 높아 지면 어떻게 되겠는가? 
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그림 7-16. 전형적인 통신하드웨어의 구조 


대답 

(1) 기 가비 트망은 하드웨 어병 목이다. 그래 서 한계 는 128MB/S 이 다. 

(2) I/O 모선은 하드웨 어병 목이다. 그래서 한계 는 133MB/S 이 다. 이 병 목을 없애 기 
위 하여 강하게 결 합 (tightly-coupled) 된 MPP 들(실 례 로 Intel Paragon) 은 NIC 를 직 접 
기억기모선에 련결시킨다. 다음은 NIC 가 병목으로 되며 대역너비는 200MB/S 로 
제한된다. 

실례 7.4 에서 준 한계 들은 롱가할수 없는 하드웨 어한계들이다. 실지 로 달성할수 있 
는 대역 너비는 흔히 더 낮다. 

Strieker 와 Gross[591] 는 통신성 능이 흔히 망대역 너 비 보다 기 억 기 대역 너 비 에 의해 한 
정된다는것을 언급하였다. 실례로 많은 통신방법들은 제한된 기억기구역 (DMA 완충기라고 
한다.)에 접 근하기 위하여 DMA 엔 진을 요구한다. 사용자자료는 보내 기 전에 먼저 DMA 완 
충기 에 복사되 여 야 한다. 기 억기복사대역너비는 보통 기 억기모선의 최대대 역너 비보다 훨 
씬 더 작다. 

표 7-4 는 3 가지 MPP 들의 여러가지 구성요소들의 대역너비를 보여 준다. 


표 7-4 _ 3 가지 MPP 들에서 측정한 대역너비 (MB/ S) 


MPP 체 계 

기 억 기 모선 

복사 

I/O 모선 

망 

응용대역너비 

Intel 

paragon 

400 

68 

- 

200 

52 

IBM SP2 

2100 

>120 

80 

40 

35 

Gray T3D 

320 

93 

— 

300 

70 


Paragon 과 T3D 에 대한 I/O 모선항목들은 이 두 체계에서 NIC 가 기억기모선에 직접 
련결되므로 비여 져 있다. 응용대역너비는 응용사용자가 달성할수 있는것이다. 

망대면부회로에 대한 서로 다른 구조들이 제안되였다. 그러나 여러개의 대중적인 
특징들이 나타났다. 
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• NIC 는 DMA 기 능을 가진다. 프로그람식!/ O 는 높은 처 리 기부가처 리 를 초래할뿐아 
니라 긴 지연과 낮은 대역너비를 가져 온다. 실제의 NIC 들에서는 1~3개의 
DMA 엔진들이 사용되였다. 

• NIC 는 NIC 처 리 기 또는 협 조처 리 기, 극소형 조종기, 적 응기 처 리 기 라고 하는 자체 
의 처리기를 가진다. 마디안의 기본처리기를 마디처리기 또는 호스트처러기라고 
부른다. NIC 처 리기는 DMA 초기화, 파케트싸기/풀기，보호검사 등에 필요하다. 

• 많은 체계들에서 모든 DMA 들은 마디처 리기 가 아니 라 적응처 리기 에 의해 초기 
화된다. 이것은 자료가 마디처 리기 에 관계 없이 움직 일수 있다는 우월성을 가 
진다. 즉 마디처리기는 통신망으로부터 분리된다. 

• NIC 는 NIC 코드를 기 억하고 통보문을 림 시 로 완충시키 는 기 억기를 가져 야 한 
다. 마디처리기는 프로그람식 !/ O 를 통하여 이 기억기에 접근할수 있다. 현 
재 의 체 계 들에 서 이 NIC 기 억 의 크기 는 100 KB 에 서 수메 가바이 트의 범 위 에 
있다. 

통신쏘프트웨 어 

쏘프트웨어 부가처 리 는 흔히 현재 의 클라스터 들과 MPP 들에 서 통신시 간을 좌우한다. 

이 로부터 효률적 인 통신쏘프트웨어 를 가지 지 않으면 대 단히 효률적 인 망과 NIC 를 가지 
고도 통신시간을 크게 줄일수 없다는 결론이 나온다. 

쏘프트웨 어부가처리는 주로 3가지 원인으로부터 생긴다. 

• 쏘프트웨어는 여러개의 규약층들을 지나가야 한다. 이러한 형태의 부가처리 
를 줄이 기 위한 일 반기 술은 규약구조를 간단하게 하는것 이 다. 

• 통보문통신은 령 복사규약 ( zero - copy protocol ) 을 호출하는 여 러 개의 기 억기복사요 
구를 포함할수 있다. 

• 통신쏘프트웨어 는 통보문을 전송할 때 보호경 계 를 여 러 번 벗 어 날수 있다. 이 
문제 를 처 리 하기 위하여 사용자공간에 서 모든 통신을 완전히 수행하는 사용자수 
준기술들이 나타나고 있다. 

일 반적 인 규약구조들을 그림 7-10 에 서 설 명한다. 

잘 알려 진 소케 트대 면부는 망과일체계 , 원격절 차호출， ftp , telnet , http 등과 같은 많 
은 분산체 계 응용들에 서 사용되 였 다 . 



사용자공간 
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그림 7- 17. 통신규약의 여러가지 구조들 














PVM 과 MPI 와 같은 통신서고들은 소케 트우에서 실현되 였 다. 송신때 통보문은 소케 
트층， TCP/IP (또는 UDP/IP) 층，구동프로그람 및 망하드웨 어층의 순서 로 통과한다. 수신 
단에 서 는 같은 처 리 가 반대 순서 로 반복된 다 . 

소케 트는 TCP/IP 를 에돌아 저 수준의 기초통신층 (base communication layer, BCL) 우에 
직접 실현될수 있다. 한가지 실례는 BCL 로서 Active Messages 를 사용하는 Berkeley Fast 
Socket 이 다 . 

PVM/MPI 도 socket/TCMP 층들을 에돌아 BCL 우에 실현할수 있다. BCL 의 기본목적 
은 응용사용자들에 게 가능한껏 생 하드웨 어 성 능만큼 제 공하는것 이 다. 

통신부분체 계 의 성 능을 평 가하는데 서 MPI 와 PVM, socket 들의 성 능평 가는 BCL 들의 
성능평가보다 더 중요하다. 

전체 통신시 간의 큰 몫은 한 기 억구역으로부터 다른 기 억구역으로 자료를 복사하는 
데 소비 된다. 기 억 기 복사사건들의 수와 매 복사시 간을 줄이는것 이 중요하다. 리상적 으 
로 령복사규약이 사용되 여 통보문은 원천마디 의 송신완충기 로부터 목적 지마디 의 수신완 
충기 에 로 다른 기 억기구역 에서 또 다른 기 억기구역 에서 완충되지 않고 직 접 이동하게 
될것이다. 

실례 7.5. IBM SP 통신쏘프트웨 어 

IBM SP 다중콤퓨터에서 통보문을 보내는데 포함된 기억기복사를 그림 7-18 에서 설 
명한다. 전송될 통보문은 송신완충기 에 기 억 되 며 사용자응용에 서는 보통 변수로 나타 
낸다. 

실례로 사용자응용이 한마디의 배렬 A 를 다른 마디의 배렬 표로 보내려 한다고 하 
자. 이때 A 는 송신완충기를 나타내며 표는 수신완충기를 나타낸다. 내부적으로 관흐름 
완충기 와 I/O 대 기렬들이 통신쏘프트웨어 에 의하여 사용된다. 

SP 통신규약은 송신마디의 처리기가 자료를 송신완충기로부터 관흐름완충기로 복사 
한 다음 관흐름완충기 로부터 출구대 기렬로 복사할것을 요구한다. 수신마디의 처 리 기는 
같은 동작들을 반대순서로 수행한다. 총체적으로 4 개의 기억기복사연산들이 수행된다. 복 
사를 줄이 기 위하여 SP 는 그림 7-18 에 서 점 선들로 보여 주는바와 같이 긴 통보들이 관 
흐름완충기를 에돌아 가도록 한다. 





그림 7-18. IBM SP 통신쏘프트웨 어 에서의 


자료이 동 


일반적 인 통신쏘프트웨어 에서 통보문넘기 기는 송신측과 수신측에서 핵심부에 들어 
가고 핵심부를 떠나는데서 적 어도 4 번은 보호경계를 교차한다. 많은 현대의 가동환경들 
(실 례 로 RISC 처 리 기 와 유닉 스)에 서 는 핵 심 부에 들어 가는데 적 어 도 10/is 걸 린 다. 그러 므 
로 사용자공간에서 통보문전송을 완전히 수행하는것은 지 연을 크게 줄일수 있다. 
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통신환경 

통신부분체계의 설계에 영향을 주는 또 다른 요인은 부분체계가 작업하는 환경이 
다. 고찰하여야 할 문제점들을 표 7-5 에 렬거한다. 


표 7-5 _ 틍신환경의 문제점! 


문제점 

낮은 일반화 

높은 일반화 

응용 

기술적계산 

상업 분산 

과제 

단일과제 

다중과제 

동질 

SPMD 

MPMD 

스레드 

단일 스레드 

다중스레 드 


상업 적 및 망식/분산식응용들을 위하여 통신부분체 계 는 다중프로그람환경 에 서 
TCP/IP 와 같은 표준규약들을 효률적으로 지 원하여 야 한다. 

전용 MPP 들우에서의 기술계산응용들은 통신부분체계가 많은 경우에 PVM 과 MPI 만을 
지원하므로 더 단순하다. SPMD 는 많은 기술계산응용들에서 사용되며 한편 상업 및 분 
산응용틀은 흔히 MPMD 이다. 

이 전의 MPP 마디 의 프로쎄 스들은 단일스레 드식 이지 만 다중스레 드식프로쎄 스들은 현 
대의 MPP 들과 클라스터들에서 특히 SMP 마디가 사용될 때 사용된다. 결정적 인 문제점 
은 하나의 마디우에 하나 또는 여러개의 프로쎄스틀이 있는가 하는것이다. 

단일과제(또는 단일프로그람작성)는 이 전의 mpp 들에 서 사용되 였는데 여 기서 는 매 
마디에 끝날 때까지 실행되는 하나의 프로쎄스만이 있다. Cray T3D/T3E 에서 일감의 프 
로쎄스들은 계산도중에 나갈수 있으며 프로쎄스들이 다른 일감으로부터 바로 빈 마디들 
에 로 들어 올수 있 다. 일감의 프로쎄 스들은 무러 일정 작성 식 (gang-scheduled) 이 여 서 일감 
의 한 프로쎄스가 어떤 마디에 있을 때 일감의 다른 모든 프로쎄스들은 다른 마디들에 
있을수 있다. 

다중과제로 하여 서로 다른 일감들의 여러 프로쎄스들이 같은 시간에 하나의 마디우 
에 있을수 있다. 다중과제는 통신부분체계의 설계를 상당히 복잡하게 한다. 실례로 다음 
의 문제점들이 제기된다. 

• NIC 가 프로쎄스 P 의 DMA 완충기로부터 DMA 를 통하여 통보문을 받고 있는 동 
안 그 완충기 는 보충기 억기 공간을 요구하는 다른 프로쎄 스 Q 에 의해 바뀌 여 진 
다. 그러면 NIC 는 본래의 DMA 완충기가 지금은 프로쎄스 Q 의 자료를 가지고 
있으므로 틀린 자료를 전송한다. 이 문제 를 풀기 위하여 DMA 완충기 는 절대 로 
바뀌지 말아야 한다. 

• 마디 는 여 러 프로쎄 스들에 의해 시 간공유되 기때 문에 임의의 프로쎄스는 임의의 
시 간에 비 결정 적 으로 시 간초과될수 있으며 프로쎄 스가 얼 마동안 일정 이 작성되 
지 않고 남아 있겠는지 예측할수 있다. 일정이 작성되지 않은 프로쎄스에 보내진 
통보문은 수신측을 차단할수 있다. 그리 고 수신단의 혼잡에 의한 후과는 결국 
망전체를 차단한다. 
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• 다중과제 는 또한 보호를 보다 환기시 킨다. 왜 냐하면 여 러 프로쎄 스들이 NIC 와 
련관된 통신요구들, 대 기렬들，완충기 들 등을 공유하기때 문이 다. 이 곤난은 사용 
자수준의 통신에 대한 지원과 혼합된다. 

실례 7.6. IBM SP 의 통신부분체 계 

IBM SP 의 통신부분체계는 통신환경의 문제점들을 푸는데서 한가지 절충안을 계공한 
다. 그것은 계산과 상업/분산응용들을 다 지 원한다. 병 렬응용은 SPMD 또는 MPMD 일수 
있다. 매 마디는 워크스테 이션과 꼭같은데 다중과제가 가능하다. 

고속 HPS 망과 표준 IP , 독점 적 인 사용자공간 ( US ) 규약우에 서의 통신에 는 2개 의 규약이 
리 용가능하다. 

NIC 부터 HPS 까지 는 한마디 의 여 러 프로쎄 스들에 의해 공유될수 있 다. 그러 나 매 마 
디에서 오직 하나의 프로쎄스만이 US 규약을 사용할수 있다. 


통신 봉사 

봉사들이 제공되는것은 통신부분체계의 성능에 크게 영향을 줄수 있다. 

실 례 로 BCL 은 제 한된 환경 에 서 대 단히 한정 된 봉사들만을 제 공하지 만 좋은 성 능을 
보여 준다. 그러나 이 BCL 의 최상위에 구축된 MPFPVM 은 그 실현이 보충적인 봉사들 
을 제공하여야 하므로 불충분하게 수행된다. 

다음의 봉사들이 통신부분체계에서 기대된다. 

• 담보넘기기 일단 하나의 Send 함수호출이 귀환하면 통신부분체계는 일반상황 
에서 의도하는 목적지마디 에 완전한 통보문을 넘기기한다. 통보문은 틀린 마 
디로 가지 않으며 통보문의 파케트는 하나도 잃어 지지 않는다. 믿음성 이 약 
한 둘중의 하나선 택 은 최 대 의 노력 이 드는 넘 기 기 이 며 여 기 서 부분체 계 는 최 
대 로 노력하지 만 담보는 제 공하지 않는다. 

• 흐름조종 통신부분체계는 완충기넘침이나 교착，엄중한 혼잡을 피하기 위하여 흐 
름조종을 수행하여야 한다. 특히 수신측 혼잡문제가 제기된다. 여러개의 마디들이 
하나의 수신마디 에 로 동시 에 통보문을 보내 고 수신측 프로쎄 스는 계산에 바쁘고 또 
얼마동안 어떠한 수신정합도 실행하지 못한다고 가정하자. 들어 오는 통보문들이 
수신측 완충기를 채우자마자 포화가 뒤로 퍼져 전체 망을 포화시 킬것 이 다. 

• 고장처리와 담보넘기기 통신부분체계 특히 망에 고장이 일어 났을 때 그 고장을 
프로쎄 스하는 세 가지 방법 이 있 다. 그것 은 무시하거 나 통보하거 나 고치 는것 이 
다. 이써네 트우에서 TCP 를 사용하는 분산체 계 는 중간이 믿음직하지 않기때 문에 
마지막방법을 사용한다. 수신한 파케트에 대 한 오유검사를 하고 오유가 발견된 
후에 재전송된다. 

특수한 망을 사용하는 MPP 들과 클라스터들에서는 망오유률이 흔히 매 우 낮기 
때 문에 첫 두가지 방법 들이 사용될수 있다. 실례 로 DEC 기 억기 통로망은 다만 
10_ 16 의 lbit 오유률을 가진다. 즉 10 16 bit 전송당 1개의 오유비트가 있다. 통신규 
약이 정확한 통보문이 정확한 목적지에 넘기기될것 이라는것을 담보하면 담보넘 
기기가 제공된다. 
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• 순서식넘기기 원천마디가 두개의 통보문을 같은 목적지에 보낼 때 목적지에서 
수신연산의 실행은 첫번째 통보문을 수신한다 

7. 4. 2. LogP 틍신모령 

Culler et al .[178] 은 병렬 콤퓨터를 네개의 파라메 터 즉 L , o , g ， 모로 특징 화하는 LogP 
모형을 제 안하였다. 짧은 통보문은 한개 단어 , 두개 단어 등이 다. 

LogP 모형은 그림 7-19 에서 설명하는바와 같이 통신알고리듬을 개발하는데 유용하다. 
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그림 7-19. Log P 모형 에 서 통보문의 통과 


한 마디로부터 다른 마디로 한개의 단어를 통신하는 시 간(즉 1.3.2 의 체 계기동시 간 
切)은 세개의 구간으로 다시 나누인다. 즉 사} = o + L + o 이다. 첫번째 o 는 송신부가프로쎄 
스라고 하는데 송신마디 가 한개 단어 를 망으로 주입 하기 위하여 통보문보내 기연산을 실 
행하는 시 간이 다. 두번째 o 를 수신부가처 리 라고 하는데 수신마디 가 망으로부터 1개 단어 
를 가져 오기 위하여 통보문수신연산을 실 행하는 시 간이 다. 간단히 하기 위하여 두개 의 
부가처 리는 같다고 가정하고 부가처 리를 o 라고 한다. 다시 말하여 부가처 리 o 는 마디가 
한개의 단어 를 보내거 나 받는데 소비하는 시 간의 길이 이 다. 이 시 간동안 마디는 다른 연 
산들을 수행할수 없다(실례 로 겹칩계산). 지 연 L 은 하드웨 어적망지연 즉 한개의 단어를 
송신마디로부터 수신마디로 망을 통하여 넘기기하는 시간이다. 간격 ( gap ) 파라메터 g 는 
한개 마디 에 서 2개 의 련속적 인 통보문송신 또는 수신사이에 요구되 는 최 소시 간간격 으로 
정의된다. LogP 모형은 후에 Log GP [22] 로 확장되는데 여기서는 대역너비의 호상련관과 
동등한 부피간격 이라고 하는 파라메터 단가 첨 가된다. 즉 G = l / roo 이 다. 

실 례 7.7. 두가지 병 렬콤퓨터 의 LogP 파라메터 들 

대부분의 현존 병렬콤퓨터들에서 부가처리 o 는 지연 L 에 비해 훨씬 더 크다. 그러 
나 바로 그 반대를 보여 주는 기계들도 있다. 이것을 표 7-6 에서 보여 준다. 표에는 두 
가지 병 렬 콤퓨터 의 Log GP 파라메터 들에 대 한 근사값을 기 입하였 다. 


표 7-6 _ 두가지 병렬콤퓨터의 Lo P P 파라에터들 


기계 

L 

0 

G 

P 

T 0 

Too 

IBM SP2 

1.25"s 

22.38 ms 

24jus 

400 

46jus 

35MB/s 

MeiKo CS-2 

lOjus 

3. 8 jus 

13.8jus 

64 

17.6jus 

43MB/s 
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Log P 모형 은 통신의 병 목들을 식 별 하는데 사용될 수 있다. 최 근에 Martin el al .[431] 
은 다음의 두가지 문제 들을 처 리 하는 개 선된 LogGP 모형 을 제 기 하였 다. 

네개의 과라메터(망지연 L 과 처리기의 부가처러 o , 간격 g , 대역너비 1/ G ) 중 

(1) 어느것들이 응용의 성능에 가장 크게 영향을 주는가? 

(2) 그것들은 성능에 얼마만큼 영향을 주는가? 

이 것 들은 중요한 문계 들이다 . 왜 냐하면 통신부분체 계 의 설 계 자는 제 한된 자원을 가 
장 중요한 파라메터를 개선하는데 사용하려고 하기때문이다. 

Martin et al . 은 32개 마디 워 크스테 이션클라스터 에 대 하여 10개의 병 렬 콤퓨터 성능평 
가기 준프로그람들의 성 능을 측정하여 그 영 향을 연구한다. 이 프로그람들은 통보문넘 기 
기 병렬콤퓨터 에 공유기억기환경 을 제공하는 언어 Split - C 로 실현된다. 시 험 가동환경은 지 
연과 부가처리，간격을 독립적으로 조절할수 있도록 한다. 클라스터가동환경의 고장환경 
은 다음의 파라메터 값들을 자진다. 

L =5 us ， o =2.9 us ， g =5.8 us ， l / G =38 MB/s 

연구는 여 러개의 흥미 있는 점들을 밝혔다. 

• 응용들은 부가처 리 에 가장 민감하다. 응용들은 부가처 리가 2.9때로부터 103따로 

증가할 때 50배까지 속도가 떠질수 있다. 통신응용들은 3~5배로 속도가 떠질수 
있 다 . 응용의 실 행 시 간은 첨 가한 부가처 리 에 선형 적 으로 비 례 한다는것 이 관찰된 
다. 물론 서로 다른 응용들은 서로 다른 결수를 가진다. 

• 응용들은 간격 에도 예 민 하다. 그러 나 부가처 리 만큼 예 민 하지 는 않다 . 간격 이 

5.8/신에서 105파로 변할 때 일부 응용들은 영향을 받지 않았으며 가장 나쁜 응용 
은 6배 속도가 떠 진다. 응용의 실행시 간은 간격 에 선형 으로 비 례 한다는것 이 관 
찰된 다. 

• 대부분의 응용들은 망지연에 균등하게 예 민하다. 최 악의 경우 지연이 100 us 이상 
으로 증가될 때 속도저 하는 4배 이 하이 다. LogP 모형 에 서 지 연은 망하드웨 어 지 연 
이지 체 계기동시 간 이은 아니 다. 연구용만한 상업병 렬콤퓨터 에 서 망지연은 10 ns 
이하이다. 100따의 지연은 너무 길다. 

• 대 부분의 응용들은 통신체 계 의 부피 대 역 너 비 ( bulk - bandwidth ) 에 균등하게 예 민 하 

다. 최 악의 경우에 속도저 하는 부피대 역너 비를 단지 IMB / s 로 줄일 때 3배 이하 

이다. 모든 성능평가기준들에 대한 측정된 성능은 대역너비를 15 MB / S 로 줄일 
때까지 같은 수준에 머무론다. 

결과들은 부가처리가 가장 위험하며 다음은 간격이고 지연과 대역너비는 가장 위 
험이 적다는것을 보여 준다 . 처 리 기부가처리의 중요성은 많은 사탐들에게 인식되 였 
으며 7.4.3 에 서 론의 되 는 모든 기 술들은 부가처 리 를 줄이는데 리 용된 다. 그러 나 7.4.3 
에서 론의되는바와 같이 SP 3 통신부분망설계는 서로 다른 지침을 따르고 첫번째 우선 
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권은 대역너비에 주고 있다. 이 연구에서 어느 정도 놀라운 결과는 15 MB/S 의 대역너 
비이면 충분하다는것이다. 이 연구는 병렬콤퓨터들을 위한 정당한 하나의 자료점을 
제 공한다 . 

다른 병 렬콤퓨터 성 능평 가기 준들 또는 처 러 량처 리 , 상업응용들에 대 해서 도 갈은 결론 
이 성립하는가는 연구해 보아야 한다. 연구는 처리기의 속도가 증가할 때 결과들이 어떻 
게 변하는가 하는것을 밝히지 않았다. 

이 점은 11.5 에서 제기된다. 


7. 4. 3. 저수준■신지원 

그림 7-17 로부터 통신성능을 높이는데서 BCL 이 부정적인 역할을 논다는것을 알수 
있다. 이 부분에는 세개의 대표적인 BCL 들 즉 SHRIMP VMMC ( zero - copy ) 와 Fast 
Messages ( l - copy ), SP 2 user _ space ( US ) 규약 (2_ copy ) 을 론의 한다. 다른 BCL 들에 는 Active 
Messages , U ~ Net , MeiKo CS 2, Cray T 3 D / T 3 E , DEC TruCluster/Memory Channel , Intel 
Paragon/TFLOP 등이 있다. 

통신부분체계의 성능을 평 가할 때 점대 점통신성능을 세개의 수준에서 목록에 기 입 
한다. 

• 하드웨어수준성능은 통신하드웨어가 BCL 에 제공할수 있는 최대성능이다. 이것 
은 하드웨 어의 최대성능과 갈지 않다. 후자는 전자의 자료를 리용할수 없을 때 
사용된다. 

• BCL 최대성능은 응용에서 반드시 달성가능하지는 않다. 

• 응용수준최대성능은 PVM 이나 MPI , RCP 를 사용하는 최대성능으로 나타난다. 


SP2 통신쏘프트웨어 

IBM SP 체 계 의 통신쏘프트웨어 의 구조를 그림 7-20 에 서 보여 준다. SP 2 은 두개 의 
규약 즉 핵심부공간의 IP 에 기초한 규약과 US 라고 하는 사용자공간규약을 지원한다. 핵 
심부공간규약에 대 하여 AIX 망대 면부구동프로그람 (network interface driver , NID ) 이 IP 를 통 
신적응기에 접속한다. 


사용자 


핵심부 


MPL | PVM | MPI 

■ 

UDP | TCP 

통보 문 충 

1 

■ 

IP 

관 흐름 층 

| 

MD 

1 



1 가상교환기대면부 

—\ 1 [ 

가상교환기대면부 

1 1 

1 통 

신 적 응 기 (Microcode) 1 
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그림 7-20. SP 통신쏘프트웨 어 


















NID 는 가상교환기대면부를 사용하는데 이것은 마디의 체계기억기의 두개의 대기렬 
과적응기기억기의 몇개의 조종등록기들로 구성된다. 두개의 대기별에서 하나는 입구를 
위한것 이 고 다른것은 출구를 위한것 이 다. 대 기렬은 적 응기 가 DMA 자료를 넣 고 꺼 낼수 
있는 체계의 DMA 완충기를 제공한다. 

두개의 갈라 진 가상교환기대면부가 있는데 하나는 IP 규약용이 고 다른것은 US 규약을 
위한것 이 다. IP 에 기 초한 규약은 표준적 이 며 한편 고성 능을 위하여 설계 된 US 규약은 전 
용적 이 다. 

표 7-10 에서 볼수 있는바와 같이 US 규약은 IP 에 비해 성능을 크게 증가시킨다. 


표 7-7 _ SP2 에서 점대점■신의 성능 



지 연 t 0 jis 

대역너비 »•«,, MB/s 

최 대절반길 이 , m 1/2 B 

하드웨 어 

<1 

40 

<40 

MPL(US) 

39 

35.5 

1385 

MPL(UDP/IP) 

277 

10.8 

2991 


(MPL 은 MPI 와 비슷한 응용수준통보문넘 기 기서고이다.) 


US 규약이 하드웨 어최대대 역너 비의 80% 이상을 응용사용자에게 제공할수 있다는것 
이 중요하다. US 규약은 다음의 사실들과 결론들에 기초하여 설계된다. 

• HPS 는 기 술계산을 위한 통보문넘 기 기통신뿐만아니 라 흔히 TCP/IP 를 사용하는 
상업응용들，체 계봉사들, I/O 연산들(실 례 로 파일)을 지 원하여 야 한다. 그러 므로 
적응기는 US 규약을 사용하는 단일처리와 IP 를 사용하는 임의의 수의 프로쎄스 
들사이 에서 공유되 여 야 한다. 

• 3 가지 통신성 능파라메터 들중에 서 대 역 너 비 는 가장 중요하게，지 연은 두번째 , 마 
디 처 리 기 의 부가처 리 는 제 일 약하게 간주한다 . 

• 기본마디처리기 (POWER2 처리기)는 적응기 (1860) 안의 통신처리기보다 더 강력하 
다. 그러므로 통보문처 리의 많은 몫을 마디처 리기가 수행하도록 관심을 돌린 
다. 

• 마디처 리기 가 프로그람식！/◦를 통하여 적응기기억기 에 접근하는것은 느리므로 
그러 한 접 근을 제 한하는것 이 중요하다 . 

그림 7 - 20 의 통보문층과 관흐름층은 그림 7-17 의 기 본통신서고 (base communication 
library, BCL) 를 형 성한다. 

통보문층은 몇개의 단순한 비차단식의 점대점통신서고함수들로 구성된다. MPL 
과 MPI, PVM 의 더 높은 수준의 모든 통보문넘 기 기함수들은 이 요소들을 사용하여 
실현된다. 

관흐름층은 임의의 송신/수신프로쎄 스쌍들사이 의 믿음직 하고 흐름조종된 순서 화식바 
이 트흐름을 제 공하는 한쌍의 관흐름을 유지한다 . 

기본적인 송신-수신알고리듬은 그림 7-18, 그림 7-20, 그림 7-21 을 참조하면 리해된다. 
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• 원천마디의 처리기는 자료를 송신완충기로부터 관흐름완충기로 복사하는 통보문 
층송신연산을 실 행 한다(만일 관흐름완충기 가 리 용불가능하면 송신을 차단한 
다.). 다음 통보문층은 자료를 관흐름완충기로부터 출구대기렬로 복사하기 위하 
여 관흐름층코드를 발송한다. 

• 원천지 의 적응기 는 DMA 에 의해 출구대 기렬 로부터 적 응기 로 자료를 옮긴 다음 
그 자료를 망을 거처서 목적지의 적응기로 전송한다. 

• 목적 지 의 적 응기 는 들어 오는 자료를 DMA 에 의해 목적 지마디 의 (가상교환기대 
면부안의) 입구대 기렬로 전송한다. 

• 목적지마디의 처 리기는 자료를 입구대 기렬로부터 관흐름완충기로 복사하는 관흐 
름층을 실 행한다. 다음 관흐름층에 서 는 정 합된 수신 이 이 미 기 입 되 여 있 으면 
관흐름완충기 로부터 자료를 최 종적 인 수신완충기 로 복사하기 위하여 통보문층을 
호출한다. 





그림 7-21. SP2 통신부분체계에서 완충엔진리 

마지 막 걸 음은 정 교한 완성 을 요구한다 . 

목적지처 리기 는 망을 류출시 키 기 위하여 어 떻게 관흐름을 실행하는가? 

이 것은 송신측의 혼잡이 통신성 능을 크게 낮출수 있기때 문에 대 단히 중요한 물음 
이다. 

IMB SP 2 에 서 는 오직 관흐름층만이 입 구대 기렬 로부터 자료를 류출시킬수 있으며 마 
디처리기만이 관흐름층을 실행할수 있다. IBM SP 2 는 망을 류출시키는데 아래에서 론의 
하는 두가지 방법 즉 투표 ( polling ) 와 중단을 결 합하여 리용한다. 

투표방법 에서 관흐름층은 통보문층에 의해 호출된다. 통보문층은 목적지의 프로쎄스 
가 수신연산을 실 행 함으로써 호출된 다. 통보문층은 매 관흐름을 투표하기 위하여 관흐름 
층을 호출하며 관흐름층은 자료를 입 구대 기렬 로부터 관흐름완충기 로 이동시 킨다. 

정 합통보문이 관흐름완충기 에 도착하였으면 통보문층은 자료를 최종적 인 수신완충기 
로 복사한다. 통보문이 도착하지 않았으면 수신연산은 후의 프로쎄 스를 위하여 기 입된다. 
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통보문이 목적지 프로쎄스의 입구대 기 렬에 도착할 때 프로쎄 스는 정 합수신을 실행 하지 
않고 그밖의 다른것을 부지런히 하고 있을수 있다. 그때 통보문은 입구대기렬에 머물러 
있 는다. 

관흐름층에 서 전진을 담보하기 위하여 SP 2 US 규약은 망을 류출시키 는 두개 의 중단 
기 구를 제 공한다. 즉 관흐름층은 시 계 중단에 의해 주기 적 으로 호출되 며 또 적 응기완충기 
가 채 워 졌을 때 적 응기 중단에 의해 호출된다. 

통신부분체 계 는 송신/수신프로쎄 스들의 매 개 쌍마다 하나의 관흐름을 구성하는데 
이것은 그림 7-21 의 2개의 Pipe Buf 2 와 같이 한쌍의 관흐름완충기로 구성된다. 매 프로 
쎄스마다 하나의 입구대기렬과 출구대기렬이 있다. 이 대기렬들은 교환가능하지 않는 
기억기구역에서 유지되며 프로쎄스의 모든 관흐름들이 공유한다. 

병 렬 프로그람이 마디당 1개 씩 대 응하는 ra 개 의 프로쎄 스들로 구성 되 면 송신마디 에 는 
최 대 로 1개 의 출구대 기 별 과 «개 의 나가는 관흐름완충기 가 있 고 수신마디 에 는 최 대 로 1개 
의 입구대기렬과 «개의 들어 오는 완충기들이 있을것이다. 

마디의 처리기는 계산코드와 통보문층, 관흐름층을 3개의 코드모두가 같은 사용자 
프로쎄 스공간에 상주하는 협 조적 인 프로그람형 식 으로 실행한다. 때 문에 체 계호출이 나 핵 
심부교차가 없다. 

모든 DMA 들은 적 응기 에 의해 초기 화되 고 수행 된다. 모든 자료전송은 DMA 에 의해 
수행된다. 조종 및 상태정보만이 프로그람식 I 八)에 의해 마디의 처리기와 적응기사이를 
통과한다. 

SP 2 US 규약은 담보되고 순서화된 믿음직하고 흐름조종된 통보문의 넘기기를 제공한다. 

적응기 는 US 통신연산들에서 사용한 국부프로쎄스의 ID 들을 물리적 인 주소로 변환하 
는 함수를 제 공하며 통신이 배 정된 구획내 에서 진행 되 도록 담보한다. 

통표규약 (token protocol ) 은 흐름조종에 사용된다. 즉 자료는 목적지 측에 리용가능한 
공간이 있을 때에만 원천측관흐름으로부터 보내진다(즉 자료는 관흐름완충기로부터 출구 
대 기렬로 복사된다.). 

수신마디 가 자료를 입 구대 기렬 로부터 관흐름완충기 로 류출시 키 기 위하여 관흐름층을 
실행할 때 통표는 원천측에 해제된다. 시 간초과와 재전송구조를 가지는 응답파케트들은 
믿음직한 넘기기에 사용된다. 

고속통보문 

고속통보문 ( FM ) 은 클라스터 들과 MPP 들에 서 낮은 지 연과 높은 대 역 너 비 통신을 위하 
여 일러노이즈대학[48이에서 개발된 공공령역 BCL 이다. 이것은 Cray T 3 D 와 Myrinet 로 접 
속된 Sun Sparc 워 크스레 이 션들의 망우에 서 실 현 되 였 다 . 

FM 의 기 본목적 은 더 높은 수준의 패 키지(실례 로 소케 트와 PVM, MPI) 가 하드웨 어 
의 한계 에 가까운 통신성 능을 실 현 할수 있 도록 통보문층에 서 충분한 기 능성 을 계공하 
는것 이 다 . 

T 3 D 에 서 FM 은 130 MB / S 라는 하드웨 어 한계 를 넘 어 6.1 ms 의 지 연과 112 MB / S 의 대 역 
너 비를 달성하였다. 
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표 7-10 은 Myrinet 로 접속한 SPARCstation 의 20 개 워크스테 이션으로 된 클라스터 에서 
FM 의 성능을 보여 준다. FM 에 기초한 MPI 실현 (MPI-FM 이 라고 한다.)이 22MB/s 라는 하드 
웨어최대값을 벗어 나 19 ms 의 지연과 17.3MB/S 의 대역너비를 달성하였다는것이 중요하 
다. 사용자수준의 소케트대면부는 35 ms 의 지연과 11.3MB/S 의 대역너비를 달성하였다. 


표 7-8 고속■보문을 가지는 점대점■신의 성능 


체계 

지연 tofts 

대역너비 r m MB/s 

반피크길이 m 1/2 B 

하드웨 어 

<1 

23 

12 

FM 

14 

17.6 

246 

MPI-FM 

19 

17.3 

296 

Socket - FM 

35 

11.3 

386 


FM API 는 Acive Message 와 대 단히 비 슷한데 더 단순하고 몇 개 의 함수들만을 포함한 
다. 중요한 기본지령들을 표 7-9 에서 보여 준다. FM 은 통신에 FM 을 사용하는 한개의 
마디우에서 최대로 1개의 프로쎄스만이 실행된다는것을 전제로 한다. 


표 7-9 _ 고속■보문 응용프로그람작성대면부 


FM 요소들 

의미 

FM initialize() 

고속통보문을 초기화한다. 

FM send(dest,h,buf, size) 

기억기로부터 하나의 긴 통보문을 보낸다. 

FM send 4(dest,h,iO,il ,i2，i3) 

등록기들로부터 하나의 4개단어통보문을 보낸 다 . 

FM extact〔) 

수신된 통보문을 추출하고 조종기를 호출한다. 


함수 FM_initialize 는 FM 이 통신에 사용되 기전에 즉 임의의 FM 상수들이 대 역변수들 
에 배정되기전에 그러고 임의의 통신함수가 호출되기전에 모든 마디의 프로쎄스가 호출 
하여 야 하는 첫번째 함수이다. 이 함수는 FM 서 고가 사용하는 대 역변수들을 초기 화하며 
통보문대기 렬과 DMA 완충기를 설치 하고 마디 正)를 배정한다. 이것은 또한 장벽동기 화를 
수행 한다. 

FM_send_4(dest ,h, i0, il, i2, i3) 는 조종기를 호출하고 그것을 4 개의 32bit 정수인수 i0, 
il, i2, 내과 송신지 의 마디 正)로 통과시 킴 으로써 한개 의 4 개단어 통보문을 목적 지마디 dest 
로 보낸다. 

FM_send(dest, h, buf, size) 함수는 FM_send_4 와 비 슷 하지 만 기 억 기 위 치 buf 에 서 
sizebyte 의 통보문을 목적지마디 dest 로 보낸다. 조종기 h 는 buf 와 size, 송신마디의 ro 를 
인수로 하여 호출된다. M_ex 仕 act() 호출은 모든 미정의 통보문들을 처 리 하며 그것들의 
조종기들을 호줄한다. 

FM_send 나 FM_send_4 는 조종기 가 호출될 것 이 라는것 만을 명 기 한다는데 주의 하여 야 
한다. 실제 적 인 조종기 의 호출은 FM_extract 가 한다. 만일 통보문이 리용가능하지 않으 
면 FM_extract 는 빈 함수호출과 같이 즉시에 귀환된다. 

조종기는 임의의 계산을 포함할수 있다. 특히 조종기는 FM 함수들을 호출한다. 조종 
기가 끝날 때까지 남은 자원이 없으면 교착이 생길수 있다. FM 의 사용자는 교착을 막아 
야 할 책임을 진다. 하나의 간단한 방법은 강제로 조종기가 국부계산만을 수행하도록 
하는것 이 다. 


368 





















실 례 7.8. FM 기 본지 령 들을 사용하는 통보문넘 기 기 프로그람 

다음의 SPMD 코드는 마디 0의 위치 Buf 에서 Sizebyte 의 통보문을 어떻게 마디 1의 
위치 A 로 보내는가를 보여 준다. 


# include “ fm . h ” 

// 통보문을 위 치 A 로 옮기 는 조종기 H 를 정 의 한다 
main () 

{••• 

FM _ initialize ();•** 

If ( FM _ NODEID ==0) 

FM _ send ( l , H , Buf , Size ); 

else 

FM _ extract (); … 

} 

여 기서 FM_NODEID 는 FM_initialize 로 배정한 마디 正)를 나타낸 다. 서 로 다른 마디 
들은 서로 다른 ID 를 가진다. 

FM 통신규약은 그림 7-22 에 서 설 명한다. 4개 의 F 1 F ◦대 기렬 들이 사용된 다. Myrinet 적 
응기기 억기 는 하나의 송신대 기렬과 하나의 수신대 기렬을 포함한다. 마디의 핵 심부기 억 
기는 절환불가능한 DMA 구역 에 큰 수신대 기 렬을 포함한다. 거부대 기 렬 (reject queue ) 은 
흐름조종을 위하여 사용자공간의 기 억 기 에 상주한다. 


마디 0 


마디 o 적응기기억기 



그림 7-22. Fast Message 용통신규약(핵심부공간의 DMA 구역) 
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FM 은 80 Mb/s Myrinet 로 접속한 SPARCstation 의 20개 워크스테 이션들의 클라스터우에 
서 실현되였다. Myrinet NIC 적응기는 128 KB SRAM 을 포함하며 워크스테 이션마디의 VO 
모선 ( SBus ) 에 약하게 결합된다. 그것은 3개의 DMA 기판을 포함하는데 하나는 적응기 로 
부터 호스트에 로 전송하고 둘은 적 응기 와 망사이에 서 전송한다. 

FM 은 사용자수준통신층이 다. 매 마디 가 FM _ initialize 를 실행한후 적응기기억기와 마 
디의 수신대 기렬은 사용자수준에서 공개된다. 다음의 FM _ send ( FM _ send _4) 와 FM_extract 
는 핵 심부에 틀어 갈 때 보호경계와 교차하지 말아야 한다. 

실례 7.8 로 되돌아 가자. 

마디 0이 하나의 통보문을 마디 1로 보내 려 고 FM _ send ( l , H , Buf , Size ) 를 호출하면 
다음의 걸음순서로 실행된다. 

먼저 마디 0의 처 러기는 Buf 로부터 자료를 꺼 내서 파케 트들을 묶은 다음 프로그람식 
I / O 에 의하여 그것들을 적 응기 의 송신대 기렬에 직 접 기 억한다. 남은 자료의 이동은 모 
두 DMA 를 거 친다. 파케 트들은 마디 0의 적 응기 에 의해 망으로 주입 된다. 

파케트가 마디 1에 도착하면 그것은 적응기의 수신대기렬에 넣어 지며 후에 마디의 
수신대기렬 에 넣 어 진다. 

이 DMA 들중 아무도 마디의 처리기를 포함하지 않는다. 특히 적응기로부터 마디의 
수신대 기렬에 로의 마지 막 DMA 는 목적지의 프로쎄스가 일정 이 작성되지 않는 동안 일 어 
날수 있다. 이 분리는 수신측의 혼잡을 막게 해준다. 

FM _ send 와 FM _ send _4 는 차단식 송신이 다. 하나의 전송함수호출이 귀 환할 때 FM 은 
Buf 가 재사용될수 있음을 담보한다. 

수신마디(마디 1) 는 마디의 수신대기렬 이 다 차지 않도록 FM _ ex 仕 act 를 충분히 자주 
실행 하여 야 한다. 매 개 FM _ ex 仕 act 프로쎄스들은 마디의 수신대 기 렬로부터의 모든 미정의 
통보문들을 처 리하며 관련된 프로쎄 스자료를 포함한다. 

실례 7.8 에서 마디 1에 의해 실행 된 FM _ ex 仕 act 는 마디 0으로부터 보내온 통보문을 
처리하며 통보문자료를 사용자기 억기공간으로 옮기는 조종기 H 를 포함한다. 


Myrinet 에 대한 FM 

Myrinet 에 대 한 FM 은 Myrinet 가 10' 15 이 하의 lbit 오유률로서 고도로 믿음직 하기 때 문에 
순서화되고 흐름조종을 가지며 담보된 넘기기를 제공한다. 그러나 고장처리는 무시한다. 

통보문의 순서는 모든 대기렬들과 Myrinet 망완충기들이 FIFO 라는 사실과 임의의 원 
천마디로부터 임의의 목적마디 에 로 유일한 경 로가 있다는 사실 , 흐름조종을 위 한 규약부 
분과 담보된 넘기기 가 통보문의 순서바뀜을 일으키지 않는다는 사실로부터 담보된다. 

Myrinet 망은 wormhole 경 로정 하기 를 사용한다. 

출구포구가 바쁠(작업중일 때 ) 때 파케 트들은 망완충기 에 서 차단된 다 . 50 ms 이 상 차 
단된 파케 트는 버 려 진다. 왜 냐하면 FM 은 마디 와 망을 분리하며 수신마디의 적 응기 는 
수신측의 프로쎄스가 계산중에 있거나 바뀔 때조차도 목적지마디의 수신대기렬이 다 차 
지 않는 한 망을 류출시킬수 있기때 문이 다. 그러므로 목적지의 수신대기렬 이 다 차지 않 
는 한 파케트는 버려 지지 않으며 담보된 넘기기가 달성될것이다. FM 에서 이것은 점대 
점 흐름조종방법 에 의해 달성 된다. 

매 송신처 리 에는 신용이 라고 하는 마디의 수신대 기렬의 한 부분이 배정 되는데 모든 
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부분들의 합은 전체 수신대기렬의 크기를 초과할수 있다. 송신처리는 송신측이 여전히 
신용을 가지고 있을 때만 수신마디에로 통보문을 보낼수 있다. 

수신처려가 그 마디의 수신대기렬로부터 하나의 파케트를 지울 때 그것은 신용을 송 
신처리로 돌려 보낸다. 어떤 리유로 하여 수신측의 프로쎄스가 수신대기렬로부터 파케트 
들의 지우기를 무시하면 결국에는 모든 전송들이 차단된다. 

그러 나 이 미 전송된 파케 트는 목적 지 마디 의 수신대 기 렬 에 리 용가능한 공간이 있 으면 
버러 지지 않는다는것 이 담보되 였 다. 

SHRIMP VMMC 

Princeton 의 SHRIMP 과 제 는 가 상 기 억 기 식 통 신 (virtual memory-mapped 
communication ， VMMC ) 을 제기 하였는데 이것은 령 복사통신규약을 제공하는 얼마 안되는 
BCL 들중의 하나이 다. 비 숫한 방법 을 리용하는 다른 BCL 들에 는 기 억 기 통로망을 가지 는 
Meiko CS -2 와 DEC TruCluster 가 있다. 이 모든 체계들은 새로운 기억기관리요구들을 수 
용하기 위한 OS 원천코드의 수정 을 요구한다. 

VMMC 기구는 Myrinet 로 호상접속된 PC 클라스터와 전용통신하드웨 어로 호상접속된 
PC 클라스터우에 서 실 현되 였 다. BCL 수준의 성 능은 표 7-10 에 서 보여 주는바와 같이 
매 우 강력하다. 


표 7-10 VMMC 를 가지는 점대점틍신의 성능 


방법 

지연 t 0 ，ns 

대역너비 r^MB/s 

최대절반길이 
m 1/2 ,B 

하드웨 어 

5 

110 

550 

VMMC 

9.8 

108 

1058 

VRPC 

33 

33 

1089 


SHRIMP 체계에서 마디는 PCI 모선을 통하여 Myrinet 에 접속된다. Myrinet 와 PCI 모선 
은 최대대역너비가 각각 160 MB / S , 133 MB / S 이다. 그런데 UOMB / s 는 통신하드웨어가 
VMMC 로 달성할수 있는 최대대 역너 비 이다. VMMC 는 하드웨 어대 역너 비의 98%이상을 
달성한다. VRPC 행 은 VMMC 에 기 초한 RPC 의 성 능을 보여 준다. 

성 능자료들은 VMMC 우의 MPI / PVM 에 는 전혀 리용가능하지 않다. 그러 나 VMMC 와 
같은 통신방법은 좋은 MPI / PVM 성능을 가져 올수 있다. 

이것을 론중하기 위하여 표 7사0에서 VMMC 와 비슷한 방법 을 사용하는 DEC 
TruCluster 의 성 능을 보여 준다. TruCluster 체 계의 BCL 을 UMP(Universal Message Passing ) 
라고 부른다. 

VMMC 의 훌륭한 성능은 주로 두가지 기술 즉 보호된 사용자수준통신과 령복사규약 
에 근원을 두고 있 다. VMMC 기 구는 그림 7-23 에 서 설 명한다. 

담보된 3개의 쏘프트웨 어토막들 즉 VMMC 데몬과 VMMC 장치구동프로그람, VMMC 를 
실현하고 Myrinet 망위상을 받아 들인 적응기조종프로그람이 매 개 마디우에서 사용된다. 
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실례 7.8 로 되돌아 가자. 

마디 0이 통보문을 마디 1에 보내 기 위하여 FM_send(l, H, Buf, Size) 를 실 행하면 다 
음의 걸음순서로 실행된다. 

표 7-11 DEC TruCluster 기억기틍로망을 가지는 점대점롬신의 성능 


먼저 마디 0의 처리기는 Buf 로부터 자료를 꺼내서 그 자료를 파케트로 싼 다음 프로 
그람식！/0에 의해 그것들을 직접 적응기의 송신대기렬에 기억한다. VMMC 데몬들은 송 
신마디 와 수신마디사이 의 중요한 관계 를 확립 하기 위하여 이써네 트우에 서 호상대 화한 
다. 다음 마디 0의 프로쎄 스는 자기 원천지완충기 의 통보문을 마디 1의 다른 프로쎄 스의 
목적 지완충기 로 직 접 전송할수 있 다. 

Fast Message 와 IBM SP2 에 서 와 같이 하나 또는 그이상의 핵 심 부공간을 통과하여 
DMA 완충기로 갈 필요가 없다. Fast Message 와 IBM SP2 에서 적응기는 통보문완충기의 
물러주소를 보고 VMMC 에 서 는 가상주소를 본다 . 그러 므로 적 응기 는 주소변환을 수행 
하기 위한 
된다. 


유지 하여 야 한다 . 페 지 표들과 보호기 구는 수입 수출단계 에 설 치 


마디 0 마디 0 적유기 


사용자공간 



DMA 


PIO^ 

- H 송신대기렬 1 

"dma 



ᅯ 송신완충기 \- 

—爭 




Myrinet 

一"사용자공간一 


^1 1 

DMA 

八데 몬 / 

DMA 

辭| 패지 JL •들 | 


_| 수신완충기 p 

마디 1 


마디 1 적응기 



그림 7-23. SHRIMP VMMC 의 통신규약 


방법 

지연 to,/is 

대역너비 r«,MB/s 

반첨수길이 m 1/2 ,B 

하드웨 어 

2.9 

64 

186 

UMP 

5.8 

61 

354 

MPI 

6.9 

61 

421 

PVM 

8 

43 

344 


—降_ 




372 












































7. 4. 4. 통신알고리듬 


7.3.3 에 서 는 점 대 점 통신을 효률적 으로 지 원 하는 기 술들에 대 하여 론의하였 다. 이 부 
분에서는 정규적인것보다 비정규적인것으로 한층 더 분류되는 집중통신들을 어떻게 지원 
하는가를 론의한다 . 

세 대확장가능성 과 종적확장가능성 의 리유로 하여 병 렬콤퓨터사용은 통신알고리 듬을 
개 발하는 공통의 기 계모형 을 사용하는데 로 지 향되 고 있다. 이 모형 은 AI 개 의 마디 들로 구 
성되며 임의의 마디는 mbyte 의 점 대점통보문을 임의의 다른 마디 로 fo + mx "" 동안에 직 
접 전송할수 있다. 

여 기서 사)과 디는 각각 체 계 기동시 간과 byte 당 시간이 다. 다시 말하여 호상접속위 
상은 무시된다. 적게 사용되는 다른 모형은 마디가 통보문을 모든 마디들에 방송할수 있 
다고 가정하는데 이것은 이씨네트접속된 체계들의 추상화이다. 

정규통신 

실례 2.7 에서 론의한바와 같이 많은 형 태의 정규통신들이 있다. 그러한 통신들을 2 
개의 부류로 더 분류할수 있다. 

뿌리통신 (rooted communication ) 은 전체 대 1 또는 1 대 전체 통신이며 여기서 하나의 
마디 가 뿌리 마디 로 된다. 실례 로 방송과 집 합 ( gather ), 산란 ( scatter ), 축소 ( reduction ) 를 들수 
있 다. 

동질통신은 명확한 뿌리마디의 개념이 없는 한가지 집체통신이다. 대신에 연산은 모 
든 마디들에서 같게 서술되여야 한다. 실례로서 전체 교환 (total exchange ), 장벽, 결합 
(여기서 모든 마디는 축소합을 받아 들인다.)이 있다. 

아래 에서 는 전체 교환이 어 떻게 실현되 는가를 론의한다. 아래 에서 잠간 소개하는바 
와 같이 전체 교환을 위한 3개 의 주요알고리 듬이 있 다. 

(1) 직 접교환알고리 듬은 Take [604] 가 처 음으로 제 기하였 는데 매 우 간단하고 큰 통보 
문들에 대해서는 러론적으로 선택적이다. 

(2) 표준교환알고리 듬은 Johnson 과 Ho [354] 가 제 기하였는데 짧은 통보문에 서 잘 동작 
한다. 

(3) 다단완전교환알고리 듬은 Bokhari [99，10()] 가 제 기하였는데 직접교환과 표준교 
환알고러듬 량쪽의 우월성을 결합한다. 

이 알고리듬들은 모두 본래 하이퍼립방체다중콤퓨터들을 위하여 제기되였다. 그러나 
Bokhari [10()] 는 다단알고리 듬이 IBM SP 2 과 Intel Paragon , Meiko CS -2 와 같은 비 하이퍼 립 
방체 기계 들에 서 도 잘 수행 된 다는것 을 보여 주었 다. 

아래 에서 직접 및 표준알고리듬들을 설명한다. 
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실 례 7.9. 완전교환실 현 을 위한 직 접교환방법 

어 떤 다중콤퓨터 가 하이퍼립 방체 망으로 호상접 속된 «=2 d 개 의 마디 들로 이 루어 진 다 
고 하자. 매 마디는 함수 myid() 를 호출하여 엄을수 있는 하나의 m 를 가진다. 초기 에 마 
디 써)。<«)는 …,로 표시한 ra 개의 자료블로크를 포함한다. 

완전교환의 마지막에 자료블로크 i : j 는 마디 j •안에 있어야 한다. 직접 교환알고리 
듬은 다음과 같다. 

여 기서 매 마디 는 같은 코드를 실행한다. 



destination: i | k; /* i 배 타합 k */ 

send block(iidestination) to destination node 

} 

이 알고리듬은 3 가지 우월성을 가진다. 즉 그것은 대 단히 간단하고 최소의 자료량을 
전송하며 배 타합연산은 동기 차원순서 경 로정 하기 (synchronous dimension-order routing) 가 
사용되면 초평면에는 련결경쟁 이 없다는것을 담보한다. 직접교환알고리듬이 최소의 자 
료량을 전송한다 해 도 그것 은 모두 (n-l)(n-l) 번의 송신/수신을 실 행하여 야 하며 매 통 
보문은 1개의 블로크를 포함한다. 짧은 통보문에서 체계기동부가처리의 루적이 높을수 
있 다. 


실례 7.10. 전체 교환을 위한 표준교환알고리 듬 

표준교환알고리듬은 여러개의 짧은 통보문을 큰 덩어리로 결합하며 매 마디는 log n 
개 통보문만 전송하면 된다. 이것 은 체 계기동부가처 리 의 루적 을 줄인다. 

매 개 통보문은 «/2개의 블로크를 포함한다. 

그리 하여 전송된 전체 자료량은 (n 2 logn)/2 블로크이 다 . 그 알고리 듬은 다음과 
갈다. 

I=myid(); 

for(k=d;k>=0;k—){ 

if(bit k of i is 1) superblock=block(i:0)to(i:n/2-1); 
else superblock=blocks(i:n/2)to(i:n-l); 

destination^ | 2 k ; /* i 배 타합 2 k */ 

send superblock to destination node 
shuffle blocks locally } 


비 정 규통신 

비정규통신들의 추상화는 정의 1.6 에서 서술한 ft 원관계이다. 매 마디는 최대로 사개 
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의 단어들을 송신하며 최대로 A 개의 단어들을 수신한다는것을 안다면 ft 관계이고 h -1 
관계는 아니다. 

단순화한 가관계 문제 와 Badev et al .[51] 의 해 답을 론의 한다. 

그것들의 해답은 일반 A 관계문제에 적용할수 있다. "개 원소로 된 모임 S 가 초기에 n 
개의 마디들속에 고르롭게 분포되 여 어 느 마디도 Ato 개 이상의 마디 를 가지지 않는다고 
가정하자. 매 원소는 쌍 < data ， dest 〉이며 여기서 data 는 마디 dest 로 로정을 잡는다. 임 
의의 마디는 최대 A 개 원소들의 목적지로 된다. 즉 N 은 «으로， h 는 «으로 나눈다. 

Bader et al . 의 알고리듬은 본래 Leslie Valiant [623] 이 제기 한 방법 에 기초하고 있다. 
착상은 비 정 규통신이 망경 쟁 을 줄이 기 위하여 2단계절 차로 실현되 여 야 한다는것 이 다. 

첫 단계에서 매 마디는 자기의 통보문을 하나의 임의의 마디로 보낸다. 두번째 단계 
에서 통보문은 최종적 인 목적지로 전송된다. 알고리듬은 다음의 걸음들을 자진다. 

(1) 매 개 마디 는 ra 개 의 저 장함 ( bin ) 을 유지한다 . 마디 의 요소들은 자개 저 장함중의 
하나에 다음과 같이 배정된다. 원소들은 하나씩 주사된다. 원소는 그것이 목적 
지 가 j 인 첫 번째 원소라면 저 장함 (i + j ) mod « 에 배 치 된다. 그렇 지 않으면 
必 +1)1110(12 에 배 치 한다. 여 기 서 느는 목적 지 가 _/• 인 마지 막원소가 배 치 된 저 장함 
이다. 

(2) 마디들은 전체 교환통신을 수행한다. 여기서 마디 Pi 는 저 장함 j •의 내용들을 마 
디 ' • 로 보낸다. 매 개 저 장함은 尺/« 2 + «/2개 이하의 원소들을 포함한다. 

(3) 매 마디는 자기의 최종적 인 목적지들에 따라서 원소들을 «개의 저 장소들에 재배 
렬 한다. 

(4) 마디 들은 전체 교환통신을 수행 하여 마디 / V 가 자기 의 저 장함 乂의 내 용을 마디 
Pj 로 보낸다. 매 저장함은 가 // z + n /2 개이하의 원소들을 포함한다. 

Bade et al . 은 이 알고리듬이 0여 +。+ (가 + « 2 +尺/«)。) 라는 병 렬시 간복잡성을 가진 
다는것을 보여 주었다. 그들은 또한 여 러 MPP 들우에서 자기들의 알고리듬이 다른 현존 
알고리 듬들보다 더 빠르다는것 을 보여 주는 실 험자료들도 제 기하였 다 . 특히 그들의 두 
단계알고리 듬은 하나의 마디 가 하나의 원소를 직 접 그것 의 최 종목적 지 로 보내 는 단일단 
계알고리 듬들보다 더 빠르다. 

그들의 ft 관계알고리듬은 통보문넘기기기계들을 위한 효률적 인 병 렬정 렬알고리듬을 
개발하는데 사용된다. 
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7. 5. 참고문헌주해와 련습문제 

Solaris 스레드의 개념과 실현은 Sun 의 출판물 [132,583,601] 들에 서술되였다. 류사한 
스레 드기 술들이 상업 조작체 계 들 [193,34 이에서 사용되 였 다. 

다중스레 드는 자바프로그람작성 언어의 하나의 특징 이 다. Lazy Threads approach[270] 
는 스레 드창조를 순차적 인 절 차호출만큼 효률적 으로 진행하려 고 시 도하고 있다. Click 
스레 드서 고 [94] 에 서 work-stealing 일정 작성 은 스레 드를 제 한된 공간과 시 간, 통신요구 
들로 작성된다. Nexus 실시간체계는 통신과 스레드화를 통합하는 효과적인 방법을 보여 
준다. 

Lamport 의 1983 년 론문 [39 이은 호상배제와 Lamport 의 애완용동물문제를 제기한다. fetch- 
and-add 와 결합의 착상은 Gottliele et al.[276] 이 제 기 하였으며 한편 Kraskal et a.l[38 이은 형 식 
적인 취급을 준다. 쏘프트웨어결합기술은 Goodman et a.l[272] 에 의해 제기되였다. 

일반적 인 잠금동기화의 부족점은 Herlihy et al.[306,30 刀과 Stone et al.[589] 에 의해 론의되 
였는데 여기서 기다림 없는 동기화와 트랜잭션기억기， Oklahoim 갱신이 제안되였다. 

또 다른 하드웨 어동기 화구성 은 Goodman et al.[272] 에 의 해 제 기된 Queue-On-Lock- 
Bit 또는 QOLB 이다. QOLB 는 IEEE SCI 표준에서 실현되였다. Kagi et al.[358] 은 최근 
에 QOLB 가 다른 잠금방법들을 릉가한다는것을 보여 주며 현재의 CC-NUMA 기계들에 
서 쏘프트웨어 로 실 현될 수 있 다는것 을 보여 준다. 

Xu 와 Hwang[654,658] 은 프로그람작성 자의 관점으로부터 잠금의 부족점을 론의하고 
그 문제 를 처 리 하는 일 관성 구역 이 라고 불리 우는 새 로운 언 어 구문을 제 기 하였 다 . 일 관성 
구역은 12.3.5 에서 더 론의된다. 

동기 화에 서 의 최 근의 발전 에 대 하여 서 는 Melloi — Grummey 와 Scott[44], Anderson 과 
Moir[32], Kontothanassis et al.[374] 를 보시 오. 

TCP/IP 조는 Comer 의 책 [163] 에서 상세히 서술된다. 

현존 MPP 들의 통신부가처려는 Karamcheti 와 Chien[36()] 에서 해석된다. IBM SP2 통 
신부분체 계 는 Snir et al.[574] 에서 서 술된다. 

Illinois Fast Message(FM) 은 Lauria 와 Chien[394], Pakin et al.[48 이에 서 서 술된 다. 
Princeton SHRIMP 에서의 통신속도증가노력 은 Blumrich et al. [95, 96, 215, 216, 237, 342] 
에서 서술된다. 

고속통신에 대 한 다른 취 급들은 Active Message[179, 426, 535, 626, 628], Myrinet[97], 
Unet[62 기을 포함한다. 

LogP 모형 은 Culler et al.[178] 에 의해 제 기 되 였는데 후에 LogGP 모형 [22] 로 확장 
되였다. 

정 규통신을 위 한 효률적 인 알고리 듬들은 Bala et al.[59] , Bokhari[100], Brack et 
al.[112], Johnsson 과 HO[354, 355] 에 서 찾을수 있 다. 비 정 규통신기 술은 Leighton[402] 와 
Bader et al.[51] 에서 론의된 다. 
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문 제 


문제 7.1. Solaris 스레드와 관련된 다음의 물음에 대 답하시오. 

(1) 두 수준구조(즉 스레드들과 스레드를 대신하는 LWP 들)를 사용하는것 이 가지는 
두가지 우점은 무엇인가? 간단히 설명하시오. 

(2) ZOBMLE 스레드사용의 우점은 무엇인가? 수집스레드는 언제 실행되는가? 

문제 7.2. 스레드와 프로쎄스의 수준에서 병렬처리를 비교하시오. 

(1) 구체 적 인 실 례 들을 사용하여 다중스레드가 처 리 수준에 서 병 행 개 발에 비 하여 러 
로운 4 가지 리유를 설 명 하시 오 . 

(2) 하나의 역실례 를 주어 병 렬성 능에 관한 다중스레드가 적 합치 않은 상황을 설명 
하시오. 

문제 7.3. 잠금과 자물쇠해제 를 사용하여 다음의 병 렬코드를 고찰하시 오 . 
parfor(i=0;i<n;i++) 

{ 

noncritical section 
lock(s); 

critical section 

unlock(s); 

} 

noncritical section 은 r „ CJ 초， critical section 은 r cs 초， lock(s) 는 호 i OC k 초 걸 린다고 하자. 
u n iock ( s ) 부가처 리는 무시 해도 좋다. 대응하는 순차코드를 수행 하는데 n(r ncs +r cs ) 초 걸 린 
다. 해답에서 병행부가처리는 무시해도 된다. 

(1) 전체 병렬실행시간은 얼마인가? 

(2) "개의 처리기를 사용할 때 속도증가는 얼마인가? 

문제 7.4. 두개의 공유변수 Ticket 와 Turn 에 접근하는데서 경 쟁을 줄이 기 위하여 7.2.4 
부분의 입 장권 알고리 듬은 여 러 가지 기 술들을 제 기하였 다. 

(1) 그러한 기 술 3 가지 를 간단히 서 술하시 오. 

(2) n=4 개의 처 리기들이 있고 공유기억기의 매개 읽기 또는 쓰기는 100 주기 걸리며 
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critical section 을 한번 실 행 하는데 1000주기 걸 린 다고 가정 하자. Delay 함수는 
처 리 기 가 A ： x ( Myrinet - Tum ) 주기 동안 기 다리 도륵 한다. 


다른 모든 연산들은 0시 간 걸린 다. 足=100일 때 다음의 프로그람을 실 행하는데 얼 
마만한 주기가 요구되는가? 

int Ticket =0, Tum =0 
parfor ( i =0; i < n ; i ++) 

{int Myrinet ; 

Myrinet = FAA ( Ticket , l ));{ 
while ( Myrinet ! = Tum ) 

Delay ( Myrinet _ Turn ) 
critical section 
Turn = Tum + l ; 

} 

(2) 에서 실행시 간이 최소로 되는 오의 선택값은 얼마인가? 근거를 가지 고 그 값을 
정당화하시오. 

문제 7.5. 7.2.4 에서 서술한 고속잠금기술의 사용에 대하여 다음의 문제들을 푸시 

오. 

(1) 지 수감소를 가지 는 test _ test _ and _ set 잠금알고리 듬을 작성 하시 오 . 

(2) 문제 7.4 (2) 와 류사한데 배 렬 련결식알고리 듬을 사용하는 호상배제프로그람을 
작성 하시 오 


// 공유변수를 0으로 초기화 
// «개의 프로쎄스들이 있다. 
// 국부변수 
// 이 세개의 행은 
// 잠금 ( lock ) 연산과 
// 동등하다. 

// 잠금해 제 ( unlock ) 


문제 7.6. TCMP 조에 대한 다음의 개념들을 설명하시오. 

(1) 접 속지향규약 대 비접 속규약 

(2) TCP 대 UDP(IP TCP 와 UDP 의 기 능적 차이 에 초점 을 두시 오.) 

(3) 소케트대면부 

문제 7.7. 능률적인 통신에 대한 다음의 개념들을 설명하시오. 

(1) 마디의 처리기 대 NIC 처리기. 그것들은 무엇에 사용되는가? 

(2) 보호방식사용자수준통신. 그 우점은 무엇인가? 


378 


(3) 1 복사규약 대 령복사규약. 매 규약에서 송신시작으로부터 대응하는 수신의 끝까 
지 얼마만한 기 억기복사연산들이 수행되는가 설명 하시오. 

(4) 담보넘기기 대 순서식넘기기 

문제 7.8. 규약처 러 와 기 억기복사，보호경 계교차는 통신쏘프트웨어부가처 리의 3가지 
원천이 다. 이 세 가지 형 태의 부가처 리를 줄이 기 위 하여 SHRIMP 와 Fast Message , SP 2 US 
규약들이 어 떻게 노력 하였는가를 대 조하는 간결한 표를 만드시오. 보다 상세한 설명본문 
으로 그것 들의 우점 과 부족점 을 비 교하시 오 . 

문제 7.9. 8개 의 마디 로 된 2진하이 퍼 립 방체 다중콤퓨터 가 점 대 점 체 계 기 동시 간 to =50 us 
와 점 근 ( asymptotic ) 대 역 너 비 r < flOOMB / s 를 가진다. 2진하이 퍼 립 방체 호상접 속은 차원순 
서 경 로정 하기 를 사용한다 . 다른 모든 시 간은 무시한다 . 

(1) 직접교환알고리 듬으로 100 MB 배 렬을 전체 교환하는데 걸 리는 시 간은 얼마인가? 

(2) 표준교환알고리듬으로 100 MB 배렬을 전체 교환하는데 걸리는 시간은 얼마인가? 

(3) 직 접교환알고리 듬으로 1 MB 배 렬의 전체 교환 100개 를 수행하는데 걸 리는 시 간은 
얼마인가? 

(4) 표준교환알고리 듬으로 1 MB 배 렬의 전체 교환 100개를 수행하는데 걸리는 시 간은 
얼마인가? 

문제 7.10. 4개 마디체 계 에서 다음의 관계 를 실현하는데 7.4.4 의 Bader et 쇼의 알고 
리 듬을 사용하시 오. 원소 < D 0，1> 의 자료 D 0 은 목적 지마디 1로 전송되 여 야 한다는것 을 
가리킨다. 알고리 듬의 4개 걸음들에 서 매 마디 의 내 용을 보여 주는 그림 들을 순서 대 로 
그리시오. H 의 값은 얼마인가? 


마디 0 마디 1 


마디 2 마디 3 


<D0,0> 


<D4, 1 〉 


< D7,2 > 


<D10,3> 

<D1, 2 〉 


<D5, 2 〉 


<D8,2> 


<D11,2> 

<D2, 3 〉 


<D6, 3 〉 


<D9,3> 


<D12,3> 
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제 3 편. 체계구성방식 


최근 년간 확대가능병렬체계들의 연구와 개발에서는 흥미 있는 문제들이 나타나고 
있다. 더 많은 새로운 제품들이 늘어 나고 이 령역에서 전문적인 협의들이 널리 진행되고 
있는것은 중요한 특징의 하나이다. 

대학들에서 만든 일부 연구견본기계들이 공업생산에 이전되고 있다. 확대가능한 
업무응용들과 클라스터 가동환경들은 급속히 늘어 나고 있다. 

시 장요구와 응용경 향은 지난 시 기 체 계 구조개 발을 추동해 온 2개 의 주요요인들이 다. 


시장요구 

Compaq 로부터 IBM 에 이르는 거의 모든 주요콤퓨터제작업체들은 병 렬 또는 클라스 
터 체 계 제 품들을 밀 어 내 기 위하여 경 쟁 하고 있 다. 

Microsoft 로부터 Oracle 에 이 르는 쏘프트웨 어 회 사들은《 병 렬준비된 ( parallel - ready ) 》체 
계 들과 응용쏘프트웨어 제품들을 발표하는데 로 돌진하고 있다. 시 장연구자들은 저규모에 
서 중규모까지의 병렬봉사기들에 대한 건전한 장성을 예측하고 있다. 

정 보기 술경 영 자의 80프로가 지 금 앞날의 전개계 획 으로 병 렬체 계 를 생 각하고 있 다. 
몇년전까지 만 하여 도 15%였 다. 

2( X )0 년에는 다음과 같은 2가지 형 태의 콤퓨터들만이 존재할것 이 라는 합의도 커가고 
있 다. 

• 탁상형, 무릎형， 노트형 ( set - to - box )， 망 ( NC ) 기계들과 같은 여러가지 값 눅은 
의뢰 기기 계들 

• 이 편에서 취급하는 모든것을 포함하는 여러가지 확대가능봉사기들 

응용경향 

인 터 네 트와 인트라네 트 ， World Wide Web 에 서 의 폭발적 인 장성 은 확대 가능체 계 들의 
연구와 개발을 더욱더 촉진하고 있다. 전세계적으로 수백만의 사용자들이 접속되면 그 
틀은 단순한 전자우편봉사이상으로 요구할것 이 다. 

인 터네 트전화，텔 레 비 존회 의 , 매 체봉사기 들，정 보봉사기들, 전자상거 래， 인터네 트 
에 기 초한 초고속계 산모두는 확대 가능하고 고도로 믿 음직 한 병 렬봉사기 들 , 초고속봉사기 
들을 요구한다. 

초고속봉사기에 대한 여러 응용동향들은 다음과 같다. 

• 기술계 산은 여전히 고도로 중시되는 한편 병 렬체 계의 응용들은 상업자료기지연산 
들(실례로 OLTP 와 OLAP, 자료창고)과 망에 기초한 응용들에 의해 지배될것이다. 

• 병 렬 기 계 사용에 서 최 근개 념 은 봉사기 강화나 LAN 강화이 다. 여 기 서 대 규모병 렬 
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봉사기는 더 좋은 관리가능성과 확대가능성을 제공하기 위하여 여러개의 분산 
된 소형봉사기들을 대신한다. 

• 응용들과 체계의 쏘프트웨어개발은 하드웨어설비보다 더 중요하게 되고 있다. 

• 확대가능성과 유용성， 관리가능성은 단일한 큰 문제해결에서의 속도증가보다 
점차로 더 중요하게 된다. 

• 대형콤퓨터들과 벡토르초고속콤퓨터들은 계속 존재하도록 하는데 전심하고 있으 
며 한편 SMP 들과 CC-NUMA 기계들， 클라스터들은 자료창고와 초고속계산의 
응용들을 위한 봉사기 시 장의 중요몫을 가지 고 있 다. 

• 하드웨 어와 쏘 프트웨 어 에서는 더욱더 상품구성요소들이 사용될것 이 다. 그러 나 
새 로운 응용들과 기 능이 중요한 부분체 계 들을 지 원하기 위하여 혁 신적 인 구성 요 
소들이 여전히 필요하다. 

• 계산 및 I/O 능력들은 더 높은 R/D 효과를 요구하는 체계의 병목으로 되고 있다. 

확대가능체계의 4 가지 종류가 이 편에서 고찰된다. 일부 연구과제들이 포함되며 공 
업에서 대표적이고 혁신적인 특징을 가지는 상업 체계들을 강조한다. 매 체계에 대하여 
그 체 계 에 고유한 하드웨 어 구조와 체 계 쏘프트웨 어， 특수한 특징 들을 서 술한다 . 특별 한 
기계가 포기될 때에도 사용될수 있는 바탕기술에 특별한 주의를 돌린다. 

8 장 이 장은 SMP 와 CC-UNMA 체 계 들을 론의한다. 이 체 계 들은 수많은 현존응용 
들과 함께 하드웨 어지 원단일기억기공간을 가진다. SMP 들은 오늘 봉사기시 장을 형성하 
고 있다. CC-NUMA 기계들은 SMP 구조를 수백개의 처 리기로 확장한다. 

9장 이 장은 클라스터화의 원리 를 포함하고 있 다. 클라스터 의 구조들과 설계문제 
점 들로부터 시 작한다. 유용성 과 단일체 계영 상을 위한 하드웨 어 및 쏘프트웨어 지원을 론 
의한다. 마지 막에 클라스터 일 감관리 의 문제 들을 론의한다. 

10장 이 장은 웅대 한 연구과정 으로부터 시 작하는 여 러 가지 클라스터체 계 들과 상업 
클라스터 들을 서 술한다 . 다음 Berkelay NOW 와 IBM SP2, Digital TruCluster 을 상세 하게 
론의 한다 . 

11장 이 장은 여 러개의 MPP 구조들을 제 기한다. MPP 기계 들은 값이 비싸지 만 가장 
좋은 크기 확대 가능성 을 가진다. 거 대 한 응용들은 여 전히 수천개 의 처 러 기 들로 된 체 계 
에서 Tflop/s 속도를 요구한다. 

8 장은 SMP 와 CC-UNMA 체 계 들 이 아직 도 병 렬 시 장을 지 배 하기 때 문에 봉사기 설 계 자 
들에게는 결정적으로 중요하다. 2 개의 클라스터장들은 9 장， 10 장의 순서로 읽어야 한 
다. SMP 와 NUMA, 클라스터들은 병렬 및 분산콤퓨터의 미래이다. 11 장의 MPP 들은 벡 
토르다중처 리기들이 제 한된 확대가능성 을 가지므로 초고속름퓨터공업의 재생을 암시 하고 
있 다. 

3 편의 4 개 장들은 콤퓨터설계자들과 체계설계자들，응용프로그람작성자들이 반드시 
읽 어 야 할 목록에 대 한것 이 다. 이 것 들은 4 편의 프로그람작성장들을 읽 으러 는 독자들에 
게 는 필수적 인것 이 라고 생 각한다. 그러 나 구성 하는 기 계 들의 프로그람을 작성 할 시 간이 
없는 하드웨어공학자들은 3 편을 보지 않아도 된다. 
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제 8 장. 대칭 및 CC-NUMA 다중처리기 


이 장에 서 는 확대 가능한 공유기 억 기 다중처 리 기 들의 구조를 고찰한다. 최근의 대칭 다 
중처 리 기 (symmetric multiprocessor, SMP) 들파 일 관성 캐 쉬 비 단일 기 억 기 접 근 (coherent-cache 
nonuniform memory-access, CC-NUMA) 기 계들에 대 한 설계 경험을 자세 히 고찰한다. 

특히 2 가지 SMP 체 계 들인 Intel SHV 체 계 기 판과 Sun Ultta E—10000 봉사기，세 가지 
CC-NUMA 체 계 들인 HP/Convex Bcemplar X_class 와 SGFCray Origin 2000, Sequent UNMA-Q 
2000 의 고유한 특징 들을 고찰한다. 4 개 의 CC-NUMA 다중처 러 기 들에 대 한 기 술적 비 교는 마 
지막에 준다. 


8. 1 . SMP 와 CC - NUMA 기술 

SMP 구조는 오늘 사용되고 있는 거의 모든 병렬봉사기들에서 사용되고 있다. NUMA 
기계는 SMP 체계의 확장이 다. 아래 에 구조적특징들과 관개체계들에 대한 개괄, SMP 체계 에 
대 한 2가지 실 례연구를 준다. NUMA 기 계 들은 다음부분들에 서 론의 된 다. 

8.1.1. 다중처리기의 구성방식 

공유기억 기 체계 들의 공통구조를 그림 8-1 자 )에 서 보여 준다. 

공유기억기체계 (SMP 또는 CC - NUMA ) 들은 아래 에 서 술하는 여 러 가지 우월성 을 가진 
다. 

• 대칭성 정규적인 조작체계보호를 제외하고 임의의 처리기는 임의의 기억기위치와 
임의의 FO 장치에 접근할수 있다. 

• 단일 주소공간 이 특징 은 여 러 가지 리 득을 가져 온다. 공유기 억 기 에 상주하는 조작 
체계，자료기지，응용 등에 대 한 오직 하나의 복사만이 있기때문에 단일체계영상 
은 자연히 지연된다. 단일 OS 는 프로쎄스들이 자기의 작업부하에 따라서 여러 처 
리 기 들우에서 실행하도록 일정 을 짜므로 동적 부하평 형 을 쉽 게 달성한다. 그러 므 
로 갈은 공유기 억 기 공간에 상주하는 모든 자료에 대 하여 사용자틀은 자료분배 와 재 
분배 를 걱 정 하지 않 아도 된 다. 

• 캐쉬화 자료위치는 캐쉬들의 계층으로 지원된다. 

• 일관성 캐쉬 일관성은 하드웨 어 에 의하여 실시된다. 그러 나 서로 다른 SMP 들이 나 
CC-NUMA 기 계 들은 서 로 다른 공유기 억 기 모형 을 지 원 할수 있 으므로 이 것 들중 일 
부는 일 관성 을 담보하기 위하여 프로그람작성 자들의 조정 을 요구할수 있 다. 

• 기 억 기 통신 공유기 억 기 통신은 그것 이 간단한 load / store 지 령 들에 의 해 진행 되 고 하 
드웨 어 가 일관성 정 보를 생 성하므로 낮은 지 연을 가진다. 이 것은 많은 지 령들을 실 
행하여 야 하며 캐 쉬일관성 정 보를 러용하지 않는 다중콤퓨터 (6.6 을 참고)의 I/O 통 
신과 현저한 차이 가 있 다. 
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모선 또는 크로스바 

• • • 

I P / c | ... I P/C I I Mem | 

포천 또는 크로스바 

1 I/O 1 1 NIC. DIR. RC 1 


1 I/O 1 1 NIC. DIR. RC 1 


체계호상접속망 


c ) CC-NUMA 구조 

( DIR : 캐쉬등록부, NIC : 망대면부회로, RC : 원격캐쉬) 

그림 8-1. SMP 와 CC-NUMA 체계들의 공통구조 


대 칭 다중처 리 기 

대부분의 상업적 인 SMP 체 계들은 그림 8-1 니에서 보여 주는 모선 또는 크로스바를 
가정한다. 대부분의 SMP 들은 모선호상접속을 사용하며 캐 쉬일관성 은 어떤 MESI 와 같은 
snoopy 규약을 통하여 실시된다. 

모선접속 SMP 들은 상업적으로 성공하였으며 오늘 병 렬콤퓨터시 장의 큰 몫을 가지게 되 
였다. 아래에 서술한것은 SMP 들이 갖추어 야 할 기본문제들이 다. 

• 유용성 이것은 대체로 임의의 SMP 의 가장 큰 문제이다. 모선이나 기억기, 조작체 
계의 실패는 전체 체계를 파피한다. 

• 병목 모든 처 리기들과 I / O 조종기들은 기 억기 모선과 공유기 억기를 놓고 경쟁하는 
데 이 것은 병목으로 된다. 이 문제 를 완화하기 위하여 대부분의 SMP 들은 분산트 
랜 잭 션(파케 트교환식 모선)과 다중비차단특수요청 과 같은 기 술을 리 용하고 있 다. 

• 지연 다중콤퓨터들에 비하여 SMP 들은 작은 지연을 가전다. 그러나 처리기의 속 
도에 비하면 아직 지연이 크다. 경쟁은 지연을 더욱더 길게 할수 있다. 경쟁을 무 
시 한다 해도 현존 SMP 의 최소기 억 기지 연은 흔히 수백 처 리기주기 이며 수천개의 지 
령들을 실행할 때는 훨씬 더 길다. 지 연의 감소는 처 리기속도에서의 증가와 보조 
를 맞추지 않았다. 

• 기억기대역너비 기억기대역너비는 처리기속도 또는 기억기용량의 증가와 보조를 맞 
추지 않았다. SGI 의 John Mashey 는 기억기와 디스크용량은 3년에 4배씩 증가하고 
SMP 의 기 억 기 모선대역 너 비 는 3년 에 2배 씩 만 중가한다고 평 가하였 다. 

• I / O 대 역 너 비 개 별 적 인 I / O 모선대 역 너 비 의 증가속도는 더 욱더 낮다. 체 계 모선대 역 
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너 비 를 중가시 키 는 한가지 방법 은 그것 을 크로스바교환기 망으로 교체 하며 모든 처 
리 기 들을 모든 기 억 기 와 I/O 장치 들에 접 속하는것 이 다. 

• 확대가능성 모선은 확대가능하지 않으며 (6.6.1 을 참고) 처리기들의 최대수를 수십 
개까지로 제 한하고 있다. 많은 응용환경 에서 공유된 모선/기 억기우에서의 경쟁으 
로 하여 4 개 이상의 처 리 기들은 유력하게 사용될수 없다. 

• 더 큰 체계 에 로 확장하기 위하여 3 가지 방법 즉 모선/크로스바호상접속을 사용 
하는 방법 (실례 로 8.1.2 에 서 론의 한 Sun U1 仕 a-10000), CONUMA 구조를 사용하는 
방법(이 장의 뒤 에서 론의한다.:), 클라스터화를 사용하는 방법 (9 장과 10장에서 론 
의 된 다.)이 리용되 였 다. 

기억기지연 

SGI 의 Larry McVoy 에 따라 여 러가지 형태의 기 억기 읽기지 연이 있다. 

첫 번째 는 읽 기 요청 이 처 리 기 소편을 떠 나는 시 간부터 자료가 기 억 기 로부터 처 리 기 소편 
에 로 돌아 오는 시 간까지 로 측정한다. 이것은 본질적 으로 기 억기읽기모선주기의 시 간이 
다. 이것은 모두 몇모선박자에서 수십모선박자까지의 범위 에 있다. 실례 로 Intel SHV 에 
서 기 억기 읽기모선주기는 13 모선박자이 다. 66MHz(15ns) 로 동작하는 모선에서 그것은 195ns 
이다. 

두번째 지연의 정의는 페지화부가처리나 모선에서의 경쟁，이전의 특수요청으로부터 
의 간섭이 없다는 가정하에서 처리기가 기억기접근동작을 시작하는 시간부터 자료가 적당 
한 등록기 로 들어 가는 시 간까지 로 측정한다. 이것을 최소기 억기지 연이라고 한다. 이 지 
연은 기 억기읽기모선주기의 여 러배 일수 있다. 

세번째 지 연정의는 경 쟁과 간섭의 부가처 리들이 포함된다는것을 제외 하고 두번째 정 
의와 갈다. 


실례 8.1. SMP 체계의 유효기 억기대역너 비 

1997 년에 전형적인 SMP 체계에서 사용된 모선은 66MHz 근방의 박자로 동작한다. 몇 
개만이 100MHz 를 릉가한다. 

i 는와) 0 MHz 로 동작하는 kB 폭의 강화된 모선을 사용한다고 하자. 모선트랜잭션은 주 
소매 김 에 1박자，중재 에 1박자，캐쉬 일관성 에 1박자， mB 의 블로크자료를 넘기 기 하는데 [ m / k ] 
박자를 요구한다. fc = 64, Z 7 = 8 ,m = 16 B 일 때 제조업자가 공개 한 자료는 모선대역너비 
A ： x /=8 xl 00 = 80 MB / s 를 요구한다. 그러나 유효대역너비는 최대로 ( m /3 + [ m / 別) x / = 
(16/(3 + 16/8)) x 100= 320 MB/S 이 다. 

지금 제조업자는 모선폭을 255b 또는 32B 로 증가하고 32X100=3200MB/s 의 대역너비 
를 요구한다. 유효대 역너 비도 4 배 증가하겠는가? 

대 답은《 아니》이 다. 

최 대 유효대 역 너 비 는 단지 (16/(3+16/32)) X 100=400MB/s 또는 25% 증가된 다. 물론 3 박 
자의 부가처리는 더 큰 블로크크기 m 을 사용함으로써 삭감될수 있다. 실험에서 m 은 흔히 
캐쉬행크기의 웃한계 를 가지며 많은 고급 (high-end) 체 계 들에서 32B 부터 256B 근방에 있다. 
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행크기 m 이 64 B 까지 확대되면 유효대 역너 비는 (64/(3+64/32)) X 100=128 MB / s 로 되며 여 
전히 32 X 100=3.2 GB / s 의 하드웨 어 최대 값보다 훨씬 작다. 그렇 게 계 산한 유효대 역 너 비는 달 
성 가능한 최 대 값이다. 

CC-NUMA 체 계 

그림 8-1 n ) 에서 보여 준바와 같이 CC - NUMA 기계는 SMP 마디들을 더 큰 체계에 접 
속함으로써 SMP 들을 확장한다. 대부분의 CC - NUMA 다중처리기 체계들은 등록부에 기초한 
캐쉬일관성규약을 사용한다. 

CC - NUMA 기계는 SMP 구조의 우월성을 유지하는 한편 관습적인 SMP 들의 확대가능 
성 문제 를 완화한다. 분산된 공유기억기 구조는 확대 가능성 을 높인다. 더 많은 마디 들을 첨 
가함으로써 처 러 기 들뿐아니 라 기 억 기 용량과 I / O 능력 을 늘일수 있 다. 경 쟁 과 대 역 너 비 의 문 
제 들은 응용이 대 부분시 간에 자료국부성 의 우월 성 을 가지 고 여 러 국부기 억기 들에 동시 
에 접근할수 있기때문에 완화된다. 

일부 CC - NUMA 기 계 들은 지 어 SMP 의 유용성 문제 도 풀려 고 시 도하고 있 다. 

실례로 SGI Cellular IRIX 조작체계는 세포의 개념을 실현하므로 조작체계의 한 부분에 
대 한 여 러개의 복사들을 여 러 마디들우에서 실행할수 있고 한 마디의 실패 가 전체 체 계를 
파피하지 않는다. 

다중콤퓨터 들이 나 NCC - NUMA 기 계 들에 비 한 CC - NUMA 의 주목할만한 우월성 은 프로 
그람작성 자가 자료구조들을 마디들에로 명백 히 분배하지 않아도 된다는것 이 다. 체계의 하 
드웨 어 와 쏘프트웨 어 는 처 음에 자료를 마디 들에 자동적 으로 분배 한다. 응용의 실 행 시 간 
동안 캐쉬 일관성하드웨 어는 자료를 그것들이 참조되 는 마디들에 로 자동적으로 이동시 킨다. 
그러나 이것은 다음의 실례에서 밝혀 지는바와 같이 언제나 유효하게 실현되는것은 아니 
다. 

실 례 8.2. CC-NUMA 체 계 의 원격캐 쉬화문제 

하나의 프로그람이 자료배 렬 A 와 B 에 접 근하는 다음의 코드를 실 행하는 2개 의 프로 
쎄 스 P 와 Q 를 가진다고 가정 하자. 

P: Q: 

단계1: MSE ( A ) MSE ( B ) 

단계2: MSE ( B ) MSE ( A ) 

체계는 처음에 자료를 그림 8-2 丁)와 같이 배정하는데 이것은 단계 1에 대하여 리상 
적이다. 통신요구는 없고 원격캐쉬들은 비여 있다. 원격캐쉬는 그것들의 저장장소가 원격 
기 억기 안에 있는 자료를 꺼 내는데 사용된다는데 로부터 이름 지어 졌다. 

단계 2에서 하드웨 어는 그림 8-2 1_)와 같이 B 를 마디 1로, A 를 마디 2로 자동적으 

로 옮긴다. 

프로그람작성 자는 다중콤퓨터 에 서 요구되 는 자료재 분배 를 하지 않아도 된다. 
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이제는 문제로 돌아 가자. 

원격캐쉬는 마디 안의 국부기억기보다 훨씬 더 작다. 

실 례 로 Sequent CC - NUMA - Q 에 서 원 격 캐 쉬 는 32 MB 이 고 한편 국부기 억 기 는 4 GB 이 다. 
단계 2에서 프로그람의 작업설정이 원격캐쉬보다 훨씬 더 크다면 어떻게 되겠는가? 




1) 단계 1에서의 자료분산 0 단게 2에서의 자로분산 

그 림 8-2. CC-NUMA 다중처 리 기 체 계 의 원 격 캐 쉬 사용에 서 자료재 배 치 


결과는 용량불일 치 가 일 어 나 원격캐 쉬 들의 내 용들을 원격 마디 안의 본래 의 기 억 기 로 돌 
아와 써야 한다. 이 원격캐쉬문제를 풀기 위하여 CC-NUMA 기계 안의 조작체계들은 여러 
기술들을 통합하고 있다. 

실례로 동족일정짜기 (affinity scheduling ) 기술은 단계 2에서 프로쎄스 모는 그것의 자료 
에 가까운 마디 2에 서 실 행 하도록 하는 한편 프로쎄 스 Q 는 마디 1에 서 실 행 하도록 옮겨 진 
다. 페지 이동기술은 자료 B 의 패지를 마디 1의 국부기 억으로 옮기 고 자료 A 의 페지를 마 
디 2의 국부기억으로 옮긴다. 

CC - NUMA 체 계의 하드웨 어와 쏘프트웨어 에서 혁 신적 인 기술들은 자료의 국부성을 개 
척하고 확대가능성을 높이는데서 대 단히 유효하다. 

상업응용망들에서 자료접 근의 대부분은 국부마디내 에서 충족되며 마디 에서의 대 다 
수통신들은 자료전송때 문인것 이 아니 라 캐쉬무효때 문이 라는것 을 보여 주는 일부 증거 가 
있 다. 


8. 1 . 2. 상업 SMP 봉사기 

지 금 SMP 봉사기 들은 사용에서 가장 성 공적 인 병 렬콤퓨터 로 되 고 있다. 

표 8-1 에서 5개의 체계를 개괄한다. 다음 2개의 전형적인 SMP 체계들을 상세히 론의 
한다. Intel SHV 의 4개 처 리 기 봉사기 는 낮은급을 대 표하며 많은 NUMA 체 계 들에 서 구성 요 
소로 널리 사용되였다. 

Sun Ultra Enterprise 10000는 고급을 대 표하며 64개 처 리 기 로까지 확대 가능한데 8.2 에 
서 취급된다. 

표 8-1 의 파라메터들은 모두 최대값 또는 가장 좋은 값이 다. 

일부 특징 들은 모든 SMP 들에 서 공통적 인데 아래 에 서 설 명한다. 
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• 성능 모든 SMP 들과 더 많고 더 빠른 처리기들뿐아니라 더 큰 캐쉬/기억기/디스크 
용량，더 많은 I / O 확장홈들, 더 높은 기 억 기 및 I / O 대 역너 비，더 낮은 기 억기접근 
지연을 포함하는 확대가능성능을 제공하기 위 하여 노력하고 있다. 

• 회복력 체계는 구성요소의 고장을 곧 회복할수 있어야 하며 응용의 가동시간을 최 
대 화하여 야 한다. 알려 진 기 술들은 믿음직 하고 여 유가 있는 교체 가능한 구성 요소 
들(전원공급을 포함)을 사용하는것 , 예 보적 인 진단과 체계 감시，검사를 수행 하는 봉 
사처 리기를 사용하는것, 여 러 SMP 들이 더 높은 유용성 을 제 공하기 위 하여 쉽게 클 
라스터화될수 있는 콜라스터준비된 체 계를 만드는것，광범한 검사를 하는것과 자 
료기지 및 응용들과 통합하는것을 포함한다. 

• 통합 체 계는 혼합된 판매 자환경내 에서 응용들과 미 들웨어，조작체 계들，망들의 통 
합을 헐하게 하는 호상운영성 을 제공하여 야 한다. 리상적 인 봉사기는 대형를퓨터 
와 Unix, Windows NT, 다른 가동환경들과 흠없 이 통합할수 있어 야 한다. 

• 보안 많은 SMP 봉사기 들은 <분리 된 대 형콤퓨터+말단들>의 형 태 대 신에 망환경 에 
서 동작하고 있 다. 보안은 특히 인터네 트와 인트라네 트，자료4 터 들의 대 중화와 관 
련하여 중요하다. 

• 관리 체계 는 구성과 고장들, 자원, 성능, 료금계산기능을 관리하는 능력 을 제 공하 
여야 한다. 

8.1.3. Intel SHV 봉사기기판 


Intel 의 표준고볼륨 (standard high - volume ， SHV ) 봉사기기판의 대표적 인 형태를 그림 8_3 
에 서 보여 준다. 그것 은 4개 의 Pentium Pro ( P 6) 묶음들과 2개 의 PCI 다리 , 1 또는 그이 상의 기 
억기조종기들, 하나의 OEM 다리로 구성된다. 



그림 8-3. Intel SHV SMP 기판구조 


이 구성 요소들을 모선발동자 (b ms agent ) 라고 하며 66 MHz , 64 bit 기 억기 모선에 련결 
한다. 

PCI 다러 들은 디 스크들과 CD - ROM 들，다른 I / O 장치 들에 로의 접 속을 제 공하는 2개 의 PCI 
모선들을 기억기모선에 대면부로 련결시킨다. 
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기 억 기 조종기 들은 4 GB 까지 의 DRAM 들을 관리한다. 

OEM 다리는 원하는 무엇이나 거기(실례로 3차캐쉬)에 넣을수 있는 3부류 ( third - party ) 
개 발자들에 의해 구성 되 도록 공개 되 였 다. 

대 중적 인 사용은 여 러 SHV 기 판들을 큰 클라스터 나 CC - NUMA 기 계 들에 로 접 속하는 교 
착론리이다. 


표 8-1 5 개의 상업 SMP 체계들의 비교 


체계 특징 

DEC 

AlphaServer 
8400 5/440 

HP 

9000/T600 

IBM RS 6000/R40 

Sun Ultra 
Enterprise 6000 

SGI Power 
Challenge XL 

처리기의 수 

12 

12 

8 

30 

36 

처 러기 형래 

437MHz Alpha 
21164 

180MHz 

PA8000 

112MHz PowerPC 
604 

167MHz 

Ultra SPARC 

I 

195MHz 

MIPS 

R10000 

처리기당 
소편외장캐 쉬 

4MB 

8MB 

1MB 

512KB 

4MB 

호상접 속대 역 너 비 

B /zs 2.1GB/s 

B us 

960MB/S 

B i 上 s+Xbar 
1.8GB/S 

B u s+Xbar 
2.6GB/S 

B/zs 1.2GB/s 

I/O 통로들 

PCI 모선 12 개， 
매 개 가 133MB/S 

N/A 

MCA 2 개， 
매개가 160MB/S 

Sbus 30 개， 
매개가 200MB/S 

Power Channel - 2 
fflO 6 개, 
매개가 320MB/S 

I/O 확장홈들 

PCI 확장홈 144 
개 

HP-PB 확 
장홈 112 
개 

15MCA 

Sb/zs 

확장홈 45 개 

HIO 확장홈 12 개 

I/O 대 역 너 비 

1.2GB/S 

lGB/s 

320MB/S 

2.6GB/S 

HIO 확장홈당 320 
MB 


기 억 기 모선 

Intel SHV 기 억기모선은 많은 SMP 모선들에 공통인 여 러 특징들을 통합하고 있다. 그것 
은 SHV 에 서 는 MESI 규약인 하드웨 어 캐 쉬 일 관성 규약을 지 원한다. 그것 은 모선중계 와 주 
소만들기, 요청，응답과 같은 서로 다른 과제들을 수행하는데 따로따로의 신호선을 사용한 
다. 

기 억 기접 근들은 관흐름화될 수 있 다. 

높고 지속적 인 대 역 너 비를 제 공하기 위 하여 분산트랜잭 션과 특수한 요청들이 지 원된 
다. 

이것은 15 ns 또는 66.7 MHz 의 모선박자를 가진다. 보통 그림 8_4에서 마지막특징을 가 
지 는 SHV 기 억 기 모선은 파케 트교환식 모선 이 라고 부론다. 

SHV 기 억기 모선은 보여 주는바와 같이 관흐름된 순서 있 는 트랜 잭 션들을 수행한다. 순 
서 있다는것은 모선요청들이 먼저 온것은 먼저 봉사하는 원리로 봉사 받는다는것을 의미한 
다. 

모선의 신호선들은 6개의 개별적인 묶음(부분모선)들로 나눌수 있다. 

기 억기읽 기모선주기는 요청부분모선을 획득하기 위하여 중계부분모선을 주장하는것 으 
로 시작한다. 

이것은 2박자 걸린다. 
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다음 요청 이 두개의 린접 하는 박자를 거 처 요청부분모선우로 나온다. 첫번째 박자는 
주소와 기 억기형태를 포함하며 두번째 박자는 유일한 트랜잭 션 ID ， 요청길 이 등을 포함한 
다. 요청후 3개 박자가 나온 다음 오유부분모선 이 검 사된 다. 

임의의 오유는 요청이 다시 나오게 한다. 

요청 후 4개 박자가 나온 다음 요청 은 목적 으로 한 모선발동자 ( agent ) 에 도착하며 요청 
이 응답을 요구하는가를 가리키도록 한다. 응답을 요구하지 않으면 기다림상태가 여러 개 
의 2개 박자안에 삽입된다. 

발동자 ( agent ) 가 완료를 결정하면 경 쟁 부분모선을 주장하고 2개 박자후에 응답부분모 
선을 주장하여 자료를 자료부분모선우에 넣는다. 

32 B 의 케쉬 행 길 이 (cache line length ) 가 있다고 하면 자료를 넘 기기 하는데 4박자가 필 
요하다. 읽 기 모선주기 는 총 13박자 걸린 다. 

6개의 부분모선을 관흐름단계들로 볼수 있다. 결과 모선트랜잭션은 13박자가 아니라 4 
박자마다 시작할수 있다. 



모선은 여 러 발동자들이 모선을 공유하도록 분산트랜잭션을 지원한다. 트랜잭션은 요 
청 단계(중계，요청，오유검사)와 응답단계(완성，응답，자료)로 분할된다. 모선은 트랜잭션 
의 요청단계 를 실 행할수 있 으며 그다음 첫 번째 트랜 잭 션의 응답단계 를 실 행 하기 전에 다른 
트랜잭션을 실행할수 있다. 모선은 다른 트랜잭션을 실행하는 동안 4개까지의 특수한 요 
청들을 지원한다. 


실례 8.3. Intel SHV SMP 기 판사용에서 분산트랜잭 션 

CC - NUMA 기 계 가 구성 요소로서 여 러 개 의 SHV 기 판들을 사용한다고 하자. CC-NUMA 
기 계의 설계 자는 SCI 고리로 SHV 기판을 접속하기 위하여 OEM 다리들을 사용한다. 

2개의 읽기모선주기가 실행되는데 첫번째 읽기모선주기는 국부기억기에서 자료를 찾 
지 못한다고 하자. 그러 면 원격기 억 기 로 가야 하는데 이 것은 130모선박자가 걸린다. 두번 
째 읽 기모선주기 는 항상 국부기 억기 에서 자료를 찾으며 단지 U 박자 걸린다. 그러 나 분 
산트랜잭 션 이 없 으면 두번째 모선주기 는 첫 번째 모선주기 가 끝날 때 까지 기 다려 야 하며 이 
것 은 그것 의 지 연이 130박자로 증가된다는것 을 의 미한다. 
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분산트랜잭션에서 첫번째 트랜잭션은 그것이 인차 끝날수 없다는것과 두번째 트랜잭 
션이 U 박자에 끝나도록 모선을 양보할것을 모선에 알린다. 그동안 첫번째 트랜잭션의 특 
수한 요청 은 OEM 다러 에 서 유지 되 며 원격 접 근이 끝나기 를 기 다린 다. 자료가 도착하면 OEM 
다리는 자료를 모선우에 넣고 트랜잭션을 끝낸다. 모든 트렌잭션이 유일한 正)를 가지므 
로 혼란은 없다. 


8. 2. Sun Uitra Enterprise 10000 체계 

Ultra Enterprise 10000 은 Sun 의 고급 SMP 봉사기 이 며 StarFire 라고도 부른다. 

이 봉사기 는 성 능과 유용성 을 높이 기 위하여 여 러 새 로운 기 술들을 통합하고 있 다. 이 
것 은 64개 의 처 리 기 , 64 GB 의 기 억 기， 20 TB 이 상의 직 렬 디 스크까지 확장할수 있 다. 

체계는 모든 Sloaris 응용들을 실행 하며 대형를퓨터환경들을 통합하기 위 한 접속성과 호 
상운영성의 지원을 제공한다. 

8. 2. 1 . Ultra E -10000 의 구성방식 

Enterprise 10000은 Enterprise 6000체 계 에 비 하여 확대 가능성 과 믿음성, 유용성，봉사성 
에서 커 다란 구조적 발전을 이 룩하였다. Enterprise 10000의 블로크도를 그림 8_5에서 보여 준 
다. 

체 계는 아래 에 서 술하는바와 같이 높은 대 역 너 비의 중심 판 ( centerplane ) 주위 에 구성된다. 

Gigaplane_XB 호상접 속 

Gigaplane_XB 호상접 속은 Enterprise x 000 봉사기 들(실 례 6.1) 의 Gigaplane 체 계 모선 에 비 
하여 대역너비에서 10배 개선된다. Gigaplane _ XB 호상접속은 2개 수준의 크로스바에 기초하 
고 있다. 이 호상접속은 체계기판의 모든 기억기들과 I / O 장치들을 하나의 단일한 주소공 
간으로 련결함으로써 임의의 처리기가 전체 체계의 임의의 기억기나 ！/ O 장치에 접근할수 있 
게 한다. 

호상접속은 U 1 仕 a 포구구조 (Ultra Port Architecture ， UPA ) 표준을 고수한다. Ultra - l 탁상용워 
크스레 이 션들과 Enterprise 봉사기 들을 위 한 기 본모선 인 UPA 모선은 CPU / 기 억 기 기 판들과 I/O 
기 판들을 Gigaplane 모선 에 접 속하기 위한 중간모선으로 사용된 다. UPA 모선은 1.3 GB / S 의 최 
대대역너 비를 가지고 8.3 MHz 로 동작한다. 

체계기판에서 UPA 는 4개의 처리기들과 I / O 모둘이 기억기와 동시에 대화하게 하는 크 
로스바이 다. UPA 는 매 포구당 128 b 의 자료폭을 가진다. UPA 는 또한 대 역적 인 Gigaplane 
크로스바에 로 또는 대 역 적 인 Gigaplane 크로스바로부터 의 자료파케 트경 로정 하기 도 담당한 
다. 
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육크 웃〕싸공^과표 (근크끗크육크드크 근^) 


12.8 GB/s Gigaplane-XB 크로스바중심 판 (16X 16자로크로스바) 


단는 ^은^ 판크 판크 잔크) 산표판균 순근 


1 Ultra Enterprise 10000의 구조 


물리적 으로 Gigaplane - XB 호상접 속은 2개 의 대 칭 면으로 된 회 로기 판의 중심 판 
( centre - plane ) 으로 실현된다. 매 면은 8개 까지 의 체 계 기 판을 설 치 하며 중심 판은 기 판들과 조 
종기 판을 지 원한다. Gigaplane - XB 는 16 B 폭의 16 X 16 자료크로스바와 4개의 주소모선들，2 
개의 전원분배모선들로 구성된다. 

개선된 박자속도 

Ultra SPARC - I 처 리 기 는 체 계 박자속도와 처 리 기 박자속도가 1:2 또는 1:3 이 될 것 을 요 
구한다. 초기의 E -10000 체 계는 83.3 MHz 의 체계 박자와 250 MHz 의 처 리 기를 사용한다. 그 
러나 설계에서는 더 빠른 처리기들을 정합하도록 100 MHz 의 체계박자를 사용할수 있다. 

4개의 주소모선 

UPA 는 분리된 주소와 호상접속을 정 의한다. 모선식체 계 에서 는 보통 선대역너 비의 약 
70%만이 자료에 사용가능하며 나머지는 주소와 조종에 사용된다. 

2가지 기능의 분리 는 리 용가능한 대 역 너 비의 더 좋은 리용을 가져 온다. Snoopy 주소들 
은 모든 기 판들에 동시 에 방송되 여 야 하며 한편 자료파케 트들은 크로스바 교환기를 통하여 
점대점으로 전송될수 있다. 

4개의 대역주소모선들은 주소만들기요청을 모든 체계기판들에로 방송한다. 

하나의 주소모선 이 체 계 기 판우의 4개 의 기 억 기 장소매 개 에 사용된 다. 매 모선은 독립 
인데 이것은 4개의 명확한 주소전송이 동시에 있을수 있다는것을 의미한다. 주소전송은 2 
박자주기 가 걸린 다. 


대역 16 x 16 자료크로스바 
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크로스바안에 확립 된 16개 의 자료경 로가 있는데 매 자료경 로는 16 B 또는 256 b 폭이 고 매 
개 체계기판에로 각각 접속할수 있다. 

Enterprise 10000체 계 는 자료대 역 너 비 와 정 합되 는 충분한 주소대 역 너 비 를 공급하기 위 
하여 4개의 snoopy 경로를 사용한다. 

자료크로스바는 16개 의 체 계 기 판들사이 에 서 자료파케 트들을 경 로로 정 한다. 자료는 64 B 
의 파케 트들로 편성 되 며 한개 의 파케 트를 전송하는데 4개 의 체 계박자가 걸린 다. 16 x 16 크 
로스바로 하여 Gia 部 lane 은 12.8 GB / S 만한 높은 집체대역너 비를 제공한다. 

Enterprise 10000체 계 는 물리 기 판의 분할에 기 초한 2단경 로정 하기 형 태 를 가진 다. 국부 
적 인 n 대 1 경 로들은 내 장기 판의 요청들을 모아서 하나의 외 장기판의 포구에 접속한다. 대 
역자료크로스바는 매 기 판의 하나의 포구를 한데 합처 서 접 속한다. 

8. 2. 2. 체계기판의 구성방식 

체계는 Gigaplane _ XB 중심판에 끼운 하나의 조종기판과 하나의 지원기판, 16개까지의 
체 계 기 판을 포함한다. 조종기 판은 체 계 박자발생 기 와 온도/공기 흐름감시 와 갈은 모든 체 계 
기판들에 사용되는 체계수준의 론리를 포함한다. 조종기판은 이써네트를 통하여 체계봉사 
처리기 ( SSP , 체계 console ) 에 련결한다. 그것은 초기적재와 닫기，감시, 진단, 그밖의 체계관 
리 과제 들을 처 리한다. 

체계 기판 

매 체 계 기 판은 UPA 크로스바로 호상접 속된 4개 의 처 리 기 모둘과 한개 의 기 억 기 모둘, 하 
나의 I / O 모둘을 포함한다. 체계기판의 구조를 그림 8-6 에서 보여 준다. 

모둘당 4 GB 까지의 용량을 가지는 기 억기 모둘은 64 Mb ECC DRAM 소편들로 된 4개의 
끼워넣기식저장소를 포함한다. 

I / O 모둘은 2개 의 표준 Sb u s(ffiEE 1496-1993) 사이 에 다리 를 놓으며 매 예매는 망화와 I/O 
를 위한 2개의 확장홈을 가진다. 

Enterprise 10000은 자체의 I / O 체계에 가상주소들을 사용하며 Sbus 대면부는 가상 대 물 
리주소변환을 위한 자체의 기 억기관려 단위를 포함한다. 처 리 기의 내부박자는 250 MHz 이며 
나머지체 계 기 관은 83.3 MHz (12 ns ) 의 체 계 박자로 동작한다. 기 억 기 모둘은 매 4개 체 계 박자 
(48 ns ) 당 1개의 64 B 캐쉬행 읽기 또는 쓰기를 수행 할수 있으며 1.3 GB / S 의 대 역너비를 제공한 
다. 64 -b Sbus 는 25 MHz 로 동작하며 내 OMB / s 의 대 역 너 비 를 유지 한다. 


자료경 토정 하기 

Enterprise 10000체 계 에 서 자료경 로정 하기 는 2개 의 수준 즉 대 역 과 국부수준에 서 처 리 
된다. 대 역자료경 로조종기는 16개의 체 계기판들사이 에서 자료파케트들을 조종하는 18 B 폭 
의 16 x 16 크로스바이다. 16 x 16 크로스바로 하여 임의의 포구는 중심판전면에 걸쳐 임의 
의 다른것 에 접 속할수 있 다. 18 B 중 16 B 는 자료용이 고 나머 지 2 B 는 오유수정 을 위한것 이 
다. 

Star Fire 의 주소경 로정 하기는 4개의 대 역 주소모선들의 분리된 모임 우에 서 실현된다. 주 
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소를 나르는 주소모선들은 방송되 지 만 실현은 실제 상 점 대 점 경 로조종기 이 다. 그 의 의 는 경 
로조종기들이 모선보다 더 큰 내재적인 믿음성을 가진다는것이다. 모선들은 오유정정코드 
비트들을 포함하여 48 b 이 다. 매 모선은 독립 인데 이것은 4개의 명 확한 주소전송이 동시 에 
있 을수 있 다는것 을 의 미한다. 

주소전송은 2개 박자주기가 걸리며 주소모선우에서 초당 167 X 1000000 snoops 의 snoopy 
속도와 동등하다. 주소모선에서 고장이 생기면 새치기된 연산은 남은 모선들을 사용할수 있 
다. 

8. 2. 3. 확대가능성과 유용성지원 

StarFire 체 계 에서 의 확대 가능성 과 유용성 을 높이 기 위 한 특수한 하드웨 어 및 쏘프트 
웨어지원은 아래와 같다. 



확대가능성지원 
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강력 한 워 크스테 이 션들과 망화된 개 인용콤퓨터 들의 광범한 사용은 더 큰 SMP 봉사기 
들을 요구한다. 

Sun 은 확대가능한 관개개발에서 다음의 우월성들을 실현하였다. 

• Gigaplane_XB 호상접속과 캐 쉬 일관성 기구는 Sun SMP 봉사기 들의 확대 가능성 을 높 
이는데서 결정적 인 역할을 놀았다. 다른 중요한 역할은 Sun 의 Solaris 조작체계가 놀 
았다. 

• StarFire 는 16-64 개 의 CPU 와 2-64 GB 의 기 억 기， 20 TB 이 상의 직 결 디 스크기 억 으로 구 
성 될 수 있 다. 처 리 기 들과 기 억 기 , FO 들사 이 의 확장홈절 충은 없 다. 

• Enterprise 3000,4000, 5000, 6000봉사기 들에 서 사용된 모든 250 MHz 처 리 기 모둘들과 
SmM 들， Sb I 丄 요기 판들은 Enterprise 10000봉사기 에 도 공통적 이 다. 그러 므로 더 큰 구 
성 으로 확대 할 때 사용자들은 이 구성 요소들을 현존 종류로부터 새 로운 종류로 바 
끌수 있다. 


유용성 지 원 

Enterprise 10000은 아래와 같은 여러 개의 개선된 R AS ( reliability , availability , serviceability ) 
특성들을 제공한다. 

• 오유정 정 하드웨 어 ( Error-correction hardware ) 기 억 기 모둘들과 IA ) 모둘들， Gigaplane 
안의 자료 및 주소모선들은 오유정 정코드들과 기 우성비 트의 결 합에 의해 보호된 
다. 

• 즉시교체가능한 여유구성요소 실례로 전원공급과 대부분의 기판준위의 구성요소 

• 봉사 console 체계봉사처 리 기는 전통적 인 이씨네트를 통하여 Enterprise 10000봉사 
기 에 접 속하며 체 계진단과 검사, 감시，단일조종점 과 원격위 치 로부터의 관리 를 가 
능하게 한다. 

8. 2. 4. 동적령역과 성능 

동적체계령역 

Enterprise K )000 의 고유한 특징은 동적체계 령 역의 개념이다. 이것으로 하여 체계기판 
들의 모임들이 여러개의 령 역으로 구획 지어 질수 있으며 매 령 역은 Solaris 의 독립적인 복 
사를 실행 한다. 매 령 역은 하드웨 어 또는 다른 령 역 에서 일 어 나는 쏘 프트웨 어 오유로부터 완 
전히 분리된다. 령역은 실행시에 동적으로 형성되고 재구성될수 있다. 

Sim 은 동적 체 계 령 역 들 이 더 작은 개 별 적 인 봉사기 들의 모임 에 비 하여 여 러 가지 우월 
성을 가진다고 보고 있다. 

• 봉사기 통합 단일 한 Enterprise 10000봉사기 는 여 러 개 의 더 작은 봉사기 들의 임 무 
들을 수행 할수 있다. 그것은 따로따로 떨어 져 있는 봉사기들의 독립성과 분리를 유 
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지 하지만 한 봉사기 에서 다른 봉사기 로 자유롭게 옮기는 융통성을 관리 하고 제공 
하기가 더 쉽다. 

• 동시 적 인 개 발과 생 산，검 사 이 3 가지 기 능들은 단일 Enterprise 10000 체 계 내 에 서 안 
전하게 공존할수 있 다. 령역 들의 분리 는 개 발과 검 사작업 을 생 산과 함께 계 속할 
수 있게 한다. 

• 쏘프트웨어 이동 이전의 관개체계들에서 요구하는것과 같이 전체 체계가 행 (line) 
을 떠나지 않고 한 령역 에서 다른 령역 으로 회 전하는 형식 으로 체 계 들이나 응용 
들의 쏘프트웨어 를 갱 신할수 있 다. 

성능비교 

Sun Fire Enterprise 6000 과 StarFire Enterprise 10000 의 성능을 표 8_2 에서 비교한다. 


표 8-2 _ 2개의 Sun SMP 봉사기의 성능비교 


성능형래 

Enterprise 6000 

Enterprise 10000 

(Sun Fire 체 계) 

(StarFire) 

체 계 모선속도 

2.5GB/S 

83.3MHz 에서 10.4GB/S 

최대 체계 대 역 너비 

2.6GB/S 

100MHz 에서 12.2GB/S 

SPECrate-int95 

SPECrate-Pp95 

30개 CPU 에서 2317 

30개 CPU 에서 1782 

16~64 개 CPU 에서 N/A 

체계모선처려량 

2.5GB/S 

10.4GB/S 

기 억 기지 연 

300ns 

500ns 

망대 역 너 비 

622MB/S 까지 

的 2MB/s 까지 


1~30개 SbMs，2WMB/s 

2-32Sb^s, 200MB/S 

I/O 성능 

10개까지의 독립인 Sbus 

32 개 까지 의 독립인 Sbus 

SCI 성능 

20MB/S 

20MB/s 

UltraSCSI 성 능 

40MB/S 

40MB/s 

빛 섬유통로 

25MB/S 

25MB/s 


두 체 계 는 처 리 기 당 1MB 의 외 장캐 쉬 를 가지 는 250MHz Ultra SPARC II 처 러 기 들을 사 
용하며 Solaris 2.5.1 조작체 계 로 동작한다. 

성능개선은 구조적특징에서 즉 30 개의 CPU 로부터 64 개의 CPU 로, 30GB 의 최대기억기 
로부터 64GB 의 최대기 억기로， 45 개의 Sbtfs 곽장홈으로부터 64 개의 Sb ms 확장홈으로, 162GB 
의 내부디스크로부터 190GB 의 내부디스크로， mTB 이상의 전체 디스크로부터 20TB 이상의 
전체 디스크로의 상승을 가져 온다. 

체 계 호상접 속에 서 의 개 선은 StarFire 의 확대 가능성 을 SunFire 이 상으로 높이 였 다. 

크게 보충된 RAS 특징들은 StarFire 의 유용성을 SunFire 이상으로 높이였다. 

기 억 기 지연의 증가는 SunFire 의 구성 과 기 억 기 용량을 더 욱 확대하였 기때 문에 생 
긴 다. 
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8. 3. HP/Convex Exemplar X-Class 


Exemplar 는 1996 년 에 Hewlett-Packard/Convex 이 확대 가능병 렬 처 리 기 (SPP) 로서 소개 한 
CC-NUMA 기계 이다. 이 기계는 물리적으로 분산된 기 억기모둘들과 캐쉬들에 대 하여 캐쉬 
/기 억 기 의 일 관성 을 위 한 하드웨 어 지 원을 사용하여 단일 공유기 억 기 공간을 제 공한다. 

Exemplar 는 Convex Exemplar SPP 1600 체 계 의 계 승체 계 이 다. 이 것 은 기 술계 산파 다 
량의 자료기억관리，망봉사기 등을 위한 일반목적가동환경으로서 설계된다. 구조는 512 
개의 처 리기들과 512GB 의 물리기억기까지 확장할수 있다. 

8. 3. 1 . Exemplar X System 의 구성방식 

feemplar X 의 구조를 그림 8_7 에 서 보여 준다. 



그림 8-7. HP/Convex Exemplar X-Class SPP 의 구조 
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Exemplar X 체 계 는 일관성 고리 면 호상접 속 (Coherent Toroidal Interconnect, CTI) 을 통하여 
접 속된 여 러 개의 초마디 들 (hyper-node) 로 구성된다. 매 초마디 는 180MHz 박자의 64b PA-8000 
처 리기들을 16 개까지 가지는 SMP 체 계 (HP/Convex 에 의 해 S_Class 라고 부론다.)인데 매 처 
리기는 1MB 의 지 령캐쉬와 1MB 의 자료캐쉬 를 가진다. 

처리기/캐쉬는 그림 8-7 에서 P/C 로 표시된다. 

체 계하드웨 어 와 쏘프트웨어 는 임의의 처 리 기와 임의 의 I/O 장치조종기(실례 로 DMA 엔 
진)가 전체 체계에서 서로 다른 초마디에 포함되는 임의의 기억기에 접근하게 하는 대역 
적으로 공유된 기억기를 제공한다. 

류사하게 임의의 처리기는 임의의 초마디에 련결된 임의의 장치에 접근할수 있다. 하 
드웨어 는 체 계 폭캐 쉬일 관성 을 유지한다. 

물리적으로 갈은 주소공간에 4 개 수준의 계층기억기가 있다. 

처 리기 는 대부분시 간동안 자기의 캐쉬 들에만 접 근하여 야 한다. 

캐쉬 실패의 경우 처 리 기는 크로스바교환기를 통하여 갈은 초마디의 국부공유기억기 에 
접근한다. 자료가 국부기 억기 에서 발견되지 않으면 처 러기는 CTI 를 통하여 다른 초마디 
의 기억기로부터 자료를 엄는다. 

원격기 억기접근을 줄이 기 위하여 매 초마디 는 이전에 다른 초마디 들이 접근한 자료들 
을 꺼내는 CTI 캐쉬(콜라스터캐쉬로도 알려 져 있다.)를 포함한다. CTI 캐쉬는 물리적으로 지 
적되며 대역물리주소가 붙여 진다. 

Exemplar X-Class 체 계 의 기 본파라메 터 들을 표 8_4 에 서 개 괄한다. 

CTI 호상접 속은 SCI 표준으로부터 파생된다. 이 것은 초마디 의 모든 공유기억 기 들에 대 
한 체계 폭일관성 접근을 제공한다. CTI 는 점대점 한방향련결들의 별로서 실현된다. SCI 와 같 
이 CTI 는 여 러개의 특수한 요청 을 허 용하는 분산트랜잭 션규약을 사용한다. 

하나의 원천지초마디가 하나의 목적지초마디로부터 캐쉬행을 요청한다고 하자. 


표 8-3 _ Exemplar X - Class 의 자원 및 성능속성들 


속성 

초마디 

X-Class 체 계 

처리기의 수 

4-16 

16-64 

최 대 속도 (Gflop/s) 

11.5 

46 

캐쉬기 억 기 용량 (MB) 

8—2 

32〜128 

물리 기 억 기 용량 (GB) 

0.256-16 

卜64 

최대기 억기대 역너비 (GB/s) 

15.38 

61 

PCI 조종기의 수 

1-24 

1-96 

내부디스크용량 (GB) 

148 

592 

최 대 I/O 대 역 너 비 (GB/s) 

1.92 

7.68 

최 대 CTI 련 결 대 역 너 비 (MB/s) 

- 

450 


원천 초 마디하드웨 어 는 CTI 고리 를 거 쳐서 요청파케 트를 내 보낸다. 요청파케 트는 고리 
를 거처서 목적지 초 마디에 도착하며 목적지 초 마디는 호상접속으로부터 그 파케트를 제거 
한다. 
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다음 목적 초마디 우의 기 억 기 부분체 계 는 자기 의 국부기 억 기 로부터 캐 쉬 행 을 회 복한다(되 
찾는다.). 동시 에 목적 지 초마디 는 하나의 접 수통지 파케 트를 원천지 초마디로 보낸 다. 목적 
지 초마디 가 캐 쉬 행 을 회 복했을 때 그것은 자료를 포함하는 응답파케 트를 원천지 초마디 로 보 
낸다. 

마지 막에 원천지 초마디 는 자료를 받았다는것 을 가리 키 는 접 수통지 파케 트를 목적 지 초 
마디로 보낸다. 

Exemplar X 체 계의 기본특징은 자료전송을 가능하게 하는 특별히 설계된 크로스바와 자 
료이 동기하드웨 어 를 사용하는것 이 다. 크로스바는 CPU 들과 I / O 장치 들로부터 기 억 기 부분체 
계 로 비 차단식 접 근을 제 공한다. 

처리기쪽의 8개의 크로스바포구 매개는 단일한 자료이동기에 접속한다. 자료이동기 
는 한쌍의 PA - 예00처리기를 지원하며 3개의 PCI 확장홈 및 CTI 에로의 450 MB / S 의 대면부 
를 제공하는 240 MB / S 의 I / O 통로를 지 원한다. 기 억기 폭크로스바의 매 포구는 4통로 끼워넣 
기 식 기 억 기 기 판에 접 속한다. 크로스바포구의 자료경 로폭은 64 b 이 다. 그러 므로 크로스바포 
구의 최대대역너비는 매 방향에서 960 MB/S 이며 전체 크로스바의 집체대역너비는 두개 방 
향을 계산하면 15 GB / S 이다. 

디 스크들과 레 프들, RAID 디스크, 망과 같은 여 러 가지 I / O 장치들은 PCI 확장홈을 통하 
여 임의의 초마디에 련결할수 있다. 

8. 3. 2. Exemplar 쏘프트웨어환경 

Exemplar X - Class 의 쏘프트웨 어환경 을 그림 8_8에서 보여 준다. 

X - Class 체 계는 많은 순차프로그람들을 동시 에 실행하며 큰 처 리 량을 제공하는 거대한 
워크스테이션으로 볼수 있다. 이 특징은 점점 더 많은 현대적인 병렬체계들에 적용되고 있 
다. 

SPP - UX 조작체 계 

조작체계는 SPP - UX 라고 부르는데 이것은 Unix 의 HP 판본인 HP - UX 의 확장으로 볼수 
있 다. 


HP-UX 응용들 

Exemplar 병렬응용들 

HP-UX Middleware 
와 체계도구들 

병 렬콤파일러도구들과 대규모체게외 특징들 

API 

병렬프로그람작성모형 

SPP-UX 확장가농 Unix 극소형 핵심부 


그림 8-8. SPP-UX 조작체계와 쏘프트웨 어환경 
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주목할만한 특징 은 Exemplar 병 렬 가동환경 이 순차응용들을 지 원한다는것 이 다. 사실상 
SPP-UX 는 HP 워크스테 이션에서 보게 되는 HP-UX 와 곡 같은 환경(그림 8-8 의 그늘진 부분 
에서 보여 준다.)을 제 공한다. 그러 므로 많은 순차응용들， HP 워 크스레 이 선과 SMP 봉사기의 가 
동환경우에 존재하는 2진코드들은 그 어떤 수정이나 재를파일이 없이 실행될수 있다. 

SPP-UX 는 매 개 초마디 의 극소형 핵 심 부를 실 행 하며 극소형 핵 심 부는 가상기 억 기 관리 와 처 
리기의 일정짜기와 같은 가장 근본적인 핵심부기능을 제공한다. 

조작체 계 의 대 부분은 봉사기 과제 들과 사용자공간에 서 실 행 하는 보호모둘들에 서 실 현 
되 며 파일 체 계관리 와 장치 관리，망봉사들과 같은 표준기 능들을 제 공한다. 

SPP-UX 는 테라바이트파일들과 파일체계, 64b 자료형과 포인터들을 지원하는 64b 특징 
들，묶음일감일정짜기, 검사점, 유연한 자원배정기능과 갈은 대규모체계의 특징들을 제공 
한다. 이 특징들은 자료센터들이나 기업체계들에서 필요하다. 


병렬프로그람작성모형 

SPP-UX 는 단일 병 렬 프로그람작성 모형 을 제 공하는데 이 것 은 C 와 C++, Fortran 77, Fortran 
90, 공유기 억 기 및 통보문넘 기 기 프로그람작성 을 위 한 콤파일 러 지 령 들과 서 고들을 지 원한 
다. 지 원하는 서 고에 는 PVM, MPI, Pthreads 들이 포함된다. 

병 렬프로그람은 실행시 에 사용자가 리용할수 있는 처 리 기의 수에 자동적 으로 자체 적 
응할수 있다. 

프로그람이 실행을 시작할 때 리용가능한 매개 처리기당 1개의 스레드가 있으며 스레 
드 0( 뿌리스레 드 또는 기초스레 드 라고 한다.)을 제외한 모든 스레 드들은 휴식한다. 

스래 드 0은 병 렬구문을 만날 때 까지 혼자서 실 행한다. 그다음 그것 은 프로그람의 모 
든 휴식스레드들을 활성화한다. 병렬구문의 마지막에 스레드들은 장벽 (barrier) 에 동기화되 
며 스레 드 0을 제외한 모든 스레 드들은 휴식하게 되며 일감을 기 다린다. 

름파일러지원 

Exemplar 콤파일러는 자동최 량화의 계층을 제공한다. 

제 일 낮은 수준은 코드생성수준이 다. 여 기서는 지 령 일정짜기，쏘프트웨 어 관흐름화，타 
일식등록기 배 정，고리 차단 (loop blocking) 등과 같은 발전된 RISC 최 량화기술들에 의해 스칼 
라성능이 높아 진다. 

다음수준은 자료독립 고리 들의 자동병 렬성 이 다. 

다음수준은 병 렬 성 과 자료분배 를 명 백 하게 조종하기 위 한 콤파일 러 지 령 들을 리 용한다. 

도형과 응용도구 

SPP-UX 환경 은 부분복합체 관리 자 (Subcomplex Manager) 라고 하는 도형 도구를 포함하 
는데 이 것 은 처 리 기 들을 부분복합체 (다른 체 계 들에 서 는 pool 또는 partition 이 라고 부론다.) 
라고 하는 여 러개의 무리 (group) 로 동적 으로 구획 짓 도록 한다. 

실례로 64개의 처 리기들을 4개의 부분복합체들로 즉 하나는 호상작용하는 일감들에，하 
나는 묶음일감들에, 하나는 파일봉사기 들에，하나는 시각화에 로 구획 지 을수 있다. 
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부분복합체 내 에서 통보문넘기기는 공유기 억기를 통하여 실현된다. 부분복합체 들사이 
의 통보문넘기기는 전통적인 Unix Sockets 를 통하여 실현된다. 

SPP-UX 는 또한 Cxtools 라고 하는 환경도구들의 조를 제공하는데 이것은 결함수정과 검 
사，병 렬응용의 최 량화에서 사용자를 돕는다. 이 도구조는 병 렬결함수정 (parallel debugger ) 즉 
병 렬 성 능 profiler / 해 석 기 와 병 렬 사건 해 석 기 를 포함한다. 

8. 4. Sequent 의 NUMA-Q 2000 


Sequent 는 1992년에 NUMA-Q 설 계 를 시 작하였 으며 첫 번째 NUMA-Q 2000체 계 는 1996 
년에 Fall 에 적재되 였다. 이 체계는 주로 상업응용들을 위하여 설계되 였는데 CC-NUMA 
기 계 구성 방식 을 받아 들였 다. 그 독특성 은 대 규모체 계 제 작을 위해 상품적 구성 요소들과 표 
준구성 요소틀을 효과적 으로 사용한다는데 있 다. 

이것은 Sequent 가 자원들을 기능과 성능에 크게 영향을 주지만 아직 상품은 없는 그 
러한 주요구성요소들을 개발하는데 사용할수 있게 한다. 한가지 실례는 IQ-Link 라고 하는 
SCI 대 면부이 다. 

8. 4. 1 . NUMA-Q 2000 의 구성방식 

NUMA-Q 2000구조는 그림 8_9에서 설명되며 그 중요한 구조적파라메터 들은 표 8-4 
에 기 입된다. NUMA-Q 의 기본제작블로크는 Quad 라고 하는 4개 처 리기 SMP 기판이 다. 체계 
는 63개 까지 의 Quad 또는 2沈개 의 처 러 기 들을 가질 수 있 다. 이 것 은 CC-NUMA 기 계 이 다. 

Quad 들에 서 모든 국부기 억 기 들은 임 의 의 처 리 기 로 접 근가능한 대 역 기 억 기 를 형 성 하 
는 SCI 식 호상접속 (IQ 련결들과 하나의 IQ - P 1 ms ) 에 의 하여 한데 붙어 있다. 캐쉬 일관성은 하 
드웨 어 목록식규약에 의해 실시된다. 

Intel SHV Quad 의 사용 

Sequent 는 NUMA-Q 제 작을 위 해 상품적 구성 요소들과 표준구성 요소들을 널 리 사용하 
고 있다. 

Quad 는 off - the-shelf Intel SHV 봉사기 기 판의 변종이 다. 


표 8-4 _ Sequent NUMA-Q 2000자원의 속성들 


속성 

Quad 

체계 

처리기의 최대수 

4 

252 

캐 쉬 기 억 기 용 량 (MB)， L 2 은 처 러 기 묶음우 에 

L2:0.512 

L2:3.15 

있 는것 , L3 은 원격자료캐 쉬 

L3:32 

L3:2016 

물리 기 억 기 용량 (GB) 

0.5-4 

31-252 

집 체 최 대 기 억 기 대 역 너 비 (GB/s) 

0.533 

33.5 

I/O 포구의 수 

PCI 7 개 

441 

집 체 최대 I/O 대 역 너 비 (GB/s) 

0.266 

16.7 
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NUMA-Q 의 Quad 는 64 b , 66 MHz 국부모선으로 접속한 4개의 Pentium Pro 처리기와 한개 
의 국부기 억기 로 구성된다. 또한 국부모선에 접속한 2개의 Intel Orion PCI 다리 들 ( OPB ) 과 
IQ-Link 라고 하는 1개의 SCI 대면부기판이 있다. 

이 32 b , 33 MHz PCI 모선들 매개는 4개의 확장홈들을 가지며 총 8개의 확장홈을 가진 
다. 한개 의 확장홈은 PCI-EISA 다리 를 통하여 관리 및 진 단처 리 기 ( MDP ) 에 접 속되 며 리용 
가능한 PCI 확장홈으로는 모두 7개 가 남는다. 

Intel 의 4개 처 리 기 기 판은 CC-NUMA 체 계 에서의 사용을 쉽 게 하는 여 러개의 특징들을 
제공한다. 

실례로 그 기판은 공개된 명세서를 가지는 열린 체계이다. 기판은 3부류의 지정된 모 
선발동자가 국부모선을 조종하게 한다. NUMA-Q 에서 발동자는 IQ-Lhik 카드이며 여 러개 
Quad 들을 큰 체 계 로 통합하는 교착제 이 다. 

기판은 처리기들이 봉사하고 있는 단 하나의 기억기요청으로 차단되지 않도륵 여러개 
의 특수한 기억기요청들을 지원하는 능력을 제한하였다. 

성 능을 개선하고 SCI 와 통합하기 위하여 Sequent 는 Intel Quad 기 판에 일 련의 수정 과 보 
강을 하였다. 여유 있는 전원공급과 더 큰 고장분리능력 이 보충되였다. 사용되지 않는 PC 
론리는 기판에서 제거되였다. 

체계호상접속 

그림 8-9 와 같이 5가지 형 태의 표준적 인 체 계호상접속이 있다. 

그중 4개는 상품적호상접속으로서 2개의 PCI 모선을 통하여 Quad 를 련결한다. IQ-Link 
호상접속은 Sequent 의 소유물이 지 만 SCI 표준을 따른다. 그것은 Quad 의 국부모선에 직 접 
접속되며 분산공유기억기를 위한 Quad 호상간의 통신을 지 원한다. 


r?6i fP6i r?6i fp6i riyn 


HPC 1 /FC I 


_『) 4 개 처러기 Quad 



그림 8-9. NUMA-Q 2000 의 구성 방식도 
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임의의 IQ - PIms 는 중앙통 ( cen 仕 al Box ) 에 통합한 SCI 고리이다. 대신에 개별적인 련결 
들은 IQ - Link 들을 하나의 고리 로 접속하는데 사용될수 있다. IQ - Link 들과 IQ - PUts 를 접속 
하는 련결들은 15 m 까지의 동케블이다. 

비 공개 이 써 네 트는 체 계 console 을 모든 Quad 의 Sequent 가 설 계 한 MDP (management and 
diagnostic processor ) 에 접속한다. 이것은 Quad 들에 대한 조종과 검사, 감시를 쉽게 한다. 

공개된 LAN (이씨 네트, 고속이써 네 트 ， FDDI 등)은 Quad 와 console 을 바같세 계 와 접속한다. 
의뢰기 PC 들과 워크스테이션말단들은 LAN 을 통하여 NUMA - Q 체계에 접근할수 있다. 

대 규모기 억 장치 들(디 스크들， RAID , 테 표들, CD - ROM 들)에 로의 접 속은 하나 또는 그 이 
상의 lOOMB / s 빛섬유통로에 기초하며 매 빛섬유통로는 500 m 까지의 선택적 인 케블이다. 

Sequent 가 개발한 빛섬유통로다리들은 빛섬유통로를 기억장치들이 련결되여 있는 빠 
르고 넓은 SCSI 모선들에 접속한다. 


IQ-Link 

NUMA - Q 에서 기 본적 인 기술혁 신은 CC - NUMA 구조를 효과적으로 실현하는데서 결정 
적 인 SCI 대 면부기판 ( IQ - Link 는 그림 8-10 에서 보여 준다.)이 다. 여 기 에서도 Sequent 는 가능 
한껏 off - the - shelf 구성요소들을 사용한다. 

물리적으로 IQ - Link 는 4개의 구성요소 즉 LSI Logic 의 Orion 모선대면부조종기 ( OBIC ) 
소편과 SCI 캐쉬 련결 대 면부조종기 ( SCLIC ) 소편, Vitesse Semiconductor 의 DataPump 소편，동기 
DRAM 렬들로 구성된다. 

SCLIC 소편만이 Sequent 에 의해 전용으로 만들어 졌 다. 

DataPump 는 500 MHz 로 동작하는 GaAs 소편이다. 

다른 구성요소들은 CMOS 기술을 사용하며 66 MHz 의 국부모선박자속도로 동작한다. 

3개 의 소편은 사소한것 이 아니 며 매 개 가 140000개 이상의 문들과 550개정 도의 핀들을 포 
함한다. 

론리적 으로 IQ - Link 는 3개 의 부분체 계 들로 구성 된 다. 

DataPump 는 직접 SCI 망을 돌러며 SCI 표준에서 제기한 대면부와 류사하다(그림 6.37 
을 참고). 모선쪽 대 면부는 원격캐쉬의 자료배 렬들을 관리하며 모선 snooping 론러를 관려한 
다. OBIC 소편은 4개 까지 의 특수한 원격접 근과 2개 의 들어 오는 원격 요청 을 지 원한다. 목 
록조종기 는 SCI 의 망쪽 국부기 억 기 목록과 망쪽 원격 꼬리 표 ( tag ) 들을 관리 하며 그것 들을 목 
록에 기초한 캐쉬일관성규약에서 사용한다. 

프로그람가능한 규약엔진 (programmable protocol engine , SCLIC ) 이 이 파제를 수행한다. 

원격기 억기요청은 처 리기 나 I / O 조종기 들중 하나와 같은 임의의 모선발동자에 의해 나 
올수 있다. 

처리기가 원격마디로부터 자료를 꺼내는데 필요한 기억기요청을 내보낸다고 하자. 이 
때 그것은 다음의 걸음들을 거친다. 

(1) 처리기는 캐쉬 L 1 과 L 2 에서 실패하는 묶음호상기억기요청을 만든다. 

(2) 처 리 기는 실패캐쉬행 을 회 복하기 위하여 기 억기읽기요청을 기 억기 모선에 배 치 
한다. 
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그림 8-10. IQ-L 加 s; 의 대 략적 인 블로크도 

(3) OBIC 는 주소가 국부기 억 기 범 위내 에 있는가를 검 사하는 하나의 snoop 주기 를 실 
행한다. 주소가 국부기 억기공간의 밖에 있 으므로 원격캐쉬의 꼬리 표들이 검 사된 
다. 

(4) 요청 은 원격 캐 쉬 에 서 성 공하지 못하며 기 억 기 모선 에 서 OBIC 참조가 즉시 에 완성 
되지 않는다는것을 가리키게 한다. 이것은 다음의 독립적인 트랜잭션들이 기다림 
이 없이 진행되도록 한다. 다음 OBIC 는 원격캐쉬의 하나의 선을 배정하고 요청 
을 SCLIC 로 통과시킨다. 

(5) 규약엔진은 CACHE-FRESH 지령과 캐쉬행의 주소，행의 home 마디의 正)를 포함하 
며 하나의 파케 트를 구성하는 하나의 과제 를 생 성한다 (낳는다.). 

(6) 과제는 파케트를 DataPump 로 통과시 킨다. 다음 과제는 내부의 꼬리 표캐 쉬 에 하나 
의 선을 배정하고 잠자기에 들어 간다. 

(7) DataPump 는 요청 파케트를 SCI 고리를 거쳐서 home 마디로 넘기기 한다. 본래의 마 
더 는 자료를 검 색하여 응답을 돌려 보낸 다. 

(8) home 마디로부터 자료를 포함하는 응답이 도착할 때 DataPump 는 응답을 포착하고 
그것을 목록조종기로 보낸다. 

(9) 응답은 자체의 트랜잭션 ID 를 사용하여 걸음 (6) 에서 잠자기에 들어 간 과제를 깨 
우고 그 자료를 OBIC 로 보내며 캐쉬상태를 갱신하고 끝낸다. 
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(10) OBIC 는 모선을 중계한 다음 응답을 기 억기모선에 배 치한다. 동시 에 자료는 원 
격캐쉬로 써지며 캐쉬상태가 갱신된다. 

(11) 걸음 (2) 에서 시작한 기억기읽기트랜잭션은 끝나고 캐쉬행은 L 1/ L 2 캐쉬들과 적당 
한 등록기로 적재된다. 

8. 4. 2. NUMA - Q 의 쏘프트웨어환경 

NUMA - Q 기 계는 DYNIX / ptx 를 실행한다. DYNIX / ptx 는 다중처 리 기체 계들로 된 
Symmetry 와 NUMA-Q 2000계 렬 을 지 원 하기 위 하여 개 선된 Unix 조작체 계 의 Sequent 관본 이 
다. 

프로그람작성환경 은 표준적 인 순차언 어 들 ( C ， C ++, Cobol , Fortran , Pascal ) 과 대 형콤퓨 
터 자료기 지 쏘프트웨 어 (실 례 로 Informix , CA / lngres , Oracle , Progress , Sybase , Unify ), ptx/Debug 
라고 하는 병 렬결 함수정기，병 렬 프로그람작성 을 위한 포괄적 인 서고루린들의 모임 을 포함 
한다. 

DYNIX 체 계 는 1984년 에 처 음으로 개 발되 여 Symmetry 다중처 리 기 계 렬 에 서 10번 이 상 사 
용되 였 다. 그것 은 수천의 사용자와 수 TB 의 자료를 가지 는 대 규모관계 자료기 지응용을 지 원 
할수 있다. 

DYNIX / ptx 체 계 는 상업 적 인 기 업 응용을 위 하여 설 계 되 였 으므로 확대 가능성 과 유용성，다 
루기쉬움을 위한 여러 특징들을 제공한다. 

확대가능성지원 

수많은 사용자들과 대 규모응용들, 대 규모자료모임 들을 지 원하기 위 하여 DYNIX / ptx 는 더 
큰 표들과 하쉬법 과 같은 체 계유털 러터 들에 대 한 보강을 포함한다. DYNIX / ptx 는 16 GB 까 
지의 물리 기억기와 수십테 라바이 트의 디스크기 억을 지 원하며 수천의 사용자들을 동시적으 
로 지원한다. 

응답시간의 퇴보를 최소화하기 위하여 DYNIX / ptx 는 작은 부하를 가지는 처리기들로 과제 
들을 자동적 으로 분배 하고 일 정 짜기 하며 동적 부하평 형 을 실현한다. 

CC-NUMA 구조와 SCI 고려는 지연을 줄이고 대역너비를 늘이도록 한다. 

순차일정짜기는 무리일정짜기(처리기구룹)의 형식과 프로쎄스들이 자기의 자료에 가 
깝도록 일정 짜는 노력 들을 가능하게 한다. 

마지 막으로 단일한 NUMA - Q 기계 가 제공할수 있는것보다 더 높은 확대가능성 이 요구 
되면 여 러개의 체 계 들이 ptx / CLMSTER 쏘프트웨어를 사용하여 하나로 클라스터화될수 있 
다. 


유용성 지 원 

순차볼륨관리 자는 NUMA-Q 2000주변장치 들에 서 디 스크들과 레 프들의 직 결 교체 를 가 
능하게 한다. 이것은 또한 디스크반사화능력과 여분의 boot 디스크들，뿌리와 교환장치들 
을 반사하는 능력을 제공한다. 
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개선된 파일체계는 파일체계회복시간을 줄인다. 파일체계는 5 s 내 에 회복될수 있다. 

더 높은 유용성 은 대 등한 오유회 복을 제 공하는 분산잠금관리 자와 클라스터무결 관 
리 자를 포함하는 ptx / 클라스터 쏘프트웨 어 에 의 해 제 공된 다. 


다루기 쉬움 

Sequent 는 주콤퓨터부류를 다루기 쉽게 하기 위한 여러개의 도구들을 제공한다. 이 도 
구들은 다음과 같은것들을 포함한다. 

• 체 계 설 치 와 디 스크복제，쏘프트웨 어 설 치，사용자재 정 관려，구성 관리 등을 일 상적 으 
로 처 리하는 ptx/CLMSTER 라고 부르는 안내 에 기 초한 체 계관리 . 
ptx/CLMSTER 대 면부는 자료기지 체 계 기동이 나 체 계완료와 같은 사용자정의함수들 
을 허용함으로써 확대가능하다. 

• 고객 싸이 트에 서 NUMA-Q 기 계 를 Sequent 봉사기 쎈 터 에 접 속하는 SequentLINK 라고 
부르는 원격체 계감시 . 

이것은 Sequent 기사들이 체계의 일상적인 동작을 원격으로 감시하고 문제를 원 
격 으로 찾으며 봉사 및 구성 요구들을 원격 으로 제 기하도록 한다. 

• SNMP 규약에 기초한 망화된 체계 를 관리 하는 Co_andPoint 라고 부르는 통합된 쏘 
프트웨 어 모임 . 

• 여 러개 의 고성 능테 프구동기 를 지 원 하며 완전복제, 증식 복제, 복제 시효，파일 목록 
들 등을 관리하는 Ptx/ESBM 이 라고 부르는 개 선된 디 스크복제 쏘프트웨어 . 

Sequent NUMA-Q 는 열 린체 계 이며 일감관리，자료기지관리, 망관리 등을 위한 쏘프트 
웨 어와 같은 많은 3부류쏘프트웨 어묶음들 ( package ) 을 지 원한다. 

8. 4. 3. NUMA-Q 의 성능 

Sequent 는 Symmetry 2000과 5000에 대 한 TPC-B 와 TPC-D 성능평 가기준을 실행하고 성 
능자료들을 모으기 위한 하드웨 어계 수기，론러해 석기，조작체 계4진계수기 를 사용하여 
NUMA-Q 2000의 성 능을 예 측하였 다. 

다음 여 러 가지 모의 결과들을 생성 하는 모의 모형 이 이 성능자료들에 기 초하여 만들어 졌 
다. 

Sequent 는 OLTP 와 결 심 지 원체 계 ( DSS ) 응용들의 작업 부하특성 들이 전형 적 이 라고 보고 있 
는데 모의 결과는 NUMA-Q 동작의 작업 부하가 그러한 작업 부하들보다 낮다는것 을 예 측하 
고 있 다. 예 측된 NUMA-Q 체 계 는 32개 의 133 MHz Pentium Pro 처 리 기 들 (8 개 의 Quad 들)을 사 
용하며 여 기 서 매 개 처 리 기 는 512 KB 의 2차캐 쉬 를 가진 다. 

NUMA-Q 개 발에 서 진행 된 관찰결과는 상업응용들에 서 자료접 근의 대 부분이 큰 (4 GB 
의 ) 국부기 억 과 큰 (32 MB 의 ) 원격 캐 쉬 를 가지 는 하나의 Quad 내 에 서 충족될 수 있 다는것 이 다. 
결과 Quad 내의 망 (SCI 고리)에서 대부분의 통신흐름은 패쉬일관성규약(무효)을 위한것 이 
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지 자료전송을 위한것이 아니다. 그리하여 체계가 계공하는 자료전송대역너비는 모든 국 
부 Quad 자료대 역 너 비 들의 합과 거 의 같다. 

이것 이 일반적으로 성 립되면 통신대 역너 비가 중요한 제 한요인이 아니 라 지 연숨김 이 더 
중요하게 될것이다. 

작업부하특성 

캐쉬접근동작을 표 8-5 에서 보여 준다. 

32개 처 리기 NUMA - Q 는 64 B 의 캐쉬 행들과 32 MB 의 원격캐쉬들, 512 KB 의 2차캐쉬들 
을 가진다. 

TPC - B 에 대하여 내000개 지 령들을 수행하는데 평균 228개의 2차캐쉬실패 가 생성된다. 
그중 20개의 실패 는 캐쉬행 을 가지 는 모든 Quad 들에 보내 지 는 무효 ( invalidation ) 에 원인이 
있 다 . TPC - D 에 대 하여 서 는 18개 의 실패 만이 있 으며 1.6 개 의 캐 쉬행 이 무효된 다. 

TPC - B 에서 L 2 실패의 50.4%는 국부 Quad 기억기에서 자료를 찾고 27.2%는 같은 Quad 
안의 원격캐쉬에서, 1.3%는 같은 Quad 의 다른 L 2 캐쉬에서 찾게 된다. 

이 모든 경우에 무효로 해서 Quad 호상간의 통신(8.9%)이 여전히 펼요하지만 Quad 호 
상간의 자료전송은 요구되지 않는다. 

TPC - D 렬은 TPC-D Quad -6 에 대 한 값들을 보여 준다. 

이 2개의 성능평가기준은 완전히 서로 다른 특징을 가진다. 

TPC - D 는 자료창고，결심지원체계의 성능평가기준인데 드문히 대규모의 정규자료묶음 
들에 대한 읽기접근들이 기준으로 된다. 

표 8-5 32개 처리기 NUMA - Q 에서 TPC - B 와 TPC - D 성능평가기준들에 


대한 캐쉬접근분석표 


캐 쉬 사건 

속도 

PTC-B 

TPC-D 

L2 캐 쉬 실 패 

지령당 

0.0223 

0.0018 

국부기억기성공 

L2 실패당 

50.4% 

51.6% 

원격캐쉬성공 

L2 실패당 

21.2% 

27.6% 

국부캐쉬 대 캐쉬전송 

L2 실패당 

1.3% 

1.6% 

2 - hop 원격 

L2 실패당 

3.1% 

3.6% 

4-hop 원격 

L2 실패당 

9.1% 

10.9% 

국부성공, 원격무효 

L2 실패당 

8.9% 

4.5% 

공유목록길이 

공유선 에 로 쓰기당 

1.3 

1.6 

무효선 

지령당 

0.002 

0.00016 

원격무효 

무효당 

96% 

109% 


TPC - B 성능평 가기 준은 [501] 에 서 서술된 TPC - C 성 능평 가기 준과 비슷하다. 그것은 작은 
자료블로크들(자료기 지 의 레 코드들)에 토의 많은 read / write 접 근을 만든다. 

결과적 으로 TPC - B 는 TPC - D 보다 더 낮은 L 2 캐 쉬 실패 률을 가지 며 TPC _ B 는 더 많은 무 
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효동작들을 수행하여 야 한다. 2개 의 성 능평 가기 준의 다른 특징 들은 류사하다. 


모의결과 

모의 결과는 자료전송대 역 너 비 가 문제 로 되 지 않는 NUMA-Q 는 평 형 된다는것 을 보여 준 
다. Quad 에 서 국부모선의 리 용은 40%를 넘 지 않으며 SCI 고리 의 리 용률은 33%이 하이 다 . L 2 
캐쉬실패들에서의 평균지연(즉 L 2 캐쉬실패벌금)을 그림 8-11 에서 보여 준다. 대부분의 경 
우에 지 연은 2 ms 이 하이 며 클라스터 들이나 MPP 들에 서 의 지 연들보다 더 높다. 



그림은 또한 전용설계된 하드웨 어 에서 캐쉬 일관성규약의 처 리는 여전히 큰 지 연을 가 
져 온다는것 을 보여 준다. 

NUMA-Q 의 속도증가형태는 그림 8-12 에서 보여 준다. 



더 큰 지 연으로 하여 TPC-B 성 능평 가기 준은 TPC-D 성 능평 가기 준보다 더 나른 성 능을 보 
여 준다. TPC-B 는 TPC-D 성능평 가기준보다 10배 더 높은 L 2 캐 쉬 실패 률을 가지 기때 문에(지 
령 당 0.0223 대 0.00018, 표 8_5를 참고) 효률적 인 캐쉬실패 처 려는 더욱 중요하다. 

특히 그림 8-12 는 캐쉬 일관성 규약처 리 를 개 선하는것 이 TPC-B 의 성능을 43%만큼 더 올 
릴수 있 다는것을 암시 한다. Sequent 는 SCLIC 에서 2개 의 규약엔진사용을 연구하고 있는데 그 
모의 는 TPC-B 성 능을 20% 개 선 할수 있 다는것 을 보여 주고 있 다. 
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8. 5. SGI/Cray Origin 2000 초고속봉사기 

SGI/Cray 는 1996년 10월에 Origin 2000체계를 발표하였다. 이 체계계렬은 CONUMA 
기 계 를 받아 들였 다. SGFCray 에 서 이 구조는 내 적 으로 확대 가능공유기 억 기 다중처 리 (Scalable 
Shared-memory Multiprocessing, S 2 MP 또는 S2MP) 체 계 로 알려 져 있 다. 

먼 저 설 계 목표들을 고찰한 다음 확대 가능한 콤퓨터 를 위하여 개 발된 구조와 쏘프트웨 
어 환경 들을 론의한다. 

8. 5. 1 . Origin 2000계렬의 설계목표 

Origin 2000체 계 는 다음의 특별 한 판매목표들을 가지 는 고도로 확대 가능한 초고속봉 
사기로서 설계되였다. 

• 체계는 1개 처 리 기로부터 1024개 처 리기까지의 크기 로 확장할수 있으며 이 에 비 
례되는 자료기 억과 기 억기접 근, 통신, 동기화, I/O 능력 들을 유지한다. 그러 나 128 
개까지의 처리기로 된 체계들만이 1997년에 완성되였다. 

• 체 계 는 현존응용들을 지 원하기 위 하여 Power Challenge 봉사기 계 렬의 캐 쉬 일 관성 
의 대역적으로 주소화가능한 기억기모형을 유지한다. 

• 입력된 자료수준과 증가가격은 높은급 SMP 의것보다 더 낮아야 하며 워크스테이 
션들의 클라스터의것에 접근하여야 한다. 

이러한 목표들을 달성하기 위하여 SGI 의 Origin 설계림은 Stanford Dash 프로젝트에서 쌓 
은 경험에 기초하여 다음의 결정들을 채택하였다. 

• 체 계 는 캐 쉬 일 관성 을 실 시 하는 공유기 억 기 와 하드웨 어 를 가지 는 CC-NUMA 기 계 
를 받아 들인다. 캐 쉬 일관성 규약은 Stanford Dash 기 계 에서 사용한 등록부에 기 초한 
규약의 개 선된 판본이다. 

• 모든 처 리기는 모든 I/O 포구들은 물론 체계 안의 모든 기 억기에 직접 접근할수 있 
어 야 한다. 더 우기 임 의 의 I/O 장치 는 국부기 억 기 를 제 외 한 체 계 안의 모든 기 억 기 
에 대하여 DMA 할수 있다. 

• 체계는 기계크기에서의 늘어 나는 증대를 가능하게 하는 모둘식물리구조를 사용 
하여 야 한다. 

• 내부마디의 통신과 동기화， I / O 에 대한 효률적 인 하드웨어지원을 제공하여야 한 
다. 특히 원격 의 기 억 기 나 FO 장치 들에 대 한 접 근은 국부접 근보다 2배 만큼 낮은 지 
연을 가져 야 한다. 기억기와 I/O 동작들에 대한 마디내부의 대 역너비는 높아야 하 
며 집체대역너 비는 기계의 크기 에 따라 선형 으로 커져 야 한다. 

• 체계는 SGI Power Challenge 계 렬과 뒤쪽 호환성 이 있어 야 한다. 

• 조작체계는 CC-NUMA 구조를 효률적으로 지원하여야 하며 SMP 기계에서 이전에 
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는 없는 국부성과 유용성지원을 제공하여야 한다. 

결과 Origin 2000구조는 1024개까지의 처 리기들과 1 TB 의 주기 억을 지 원한다. 1~64개 
의 처 러기를 가지 는 체계들을 SGI Origin 2000이 라고 부르고 128개 이상의 처 리기를 가지 
는 체 계 들을 Cray Origin 2000이 라고 부론다. 

8. 5. 2. Origin 2000의 구성방식 

Origin 2000의 구조를 그림 8_13에 서 설 명 하고 현재 리 용가능한 구조적 형 태 들은 표 8_6 
에서 개괄한다. 


길^^^^^^^^^^요 


기억기/등록부 


| R100W 캐쉬 _ R10000/ 캐4厂 

■계^ 


I R1000Q/ 개수！ |:| Rl(X)0(y 애쉬 


서， t 命和令써 初可 一一◊幸 1 T 성 n & 大) 有【고|: 


4- 곻!田 SHV 바—!.—〒 g 숨 41HTIO 命며 三 ◊ -IsosrnmA 고 0<J 
:申一 .'K.&0/I piKh ? .s 一오스으간 


그림 8-13. Origin 2000다중처 리 기 구조도 
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Origin 2000 은 모둘식 물리구조를 가진다. 

최소 deskside 체계는 1~4 개의 마디 (1~8 개의 처리기)와 1-32MB 의 2 차캐쉬, 64MB-16GB 
의 주기억기， 14 개 까지의 I/O 조종기들을 포함한다. 마디들과 주기억， I/O 조종기들，호상접 
속은 체계에 점차 보충될수 있으며 결국에는 128 개의 처리기들과 512MB 의 2 차캐쉬， 256GB 
의 주기억기, 208 개의 I/O 조종기들을 가지는 최대시 렁 (rack) 체 계 로 확장될수 있다. 

마디 기 판 

매 마디 는 4MB 까지의 2 차캐쉬 를 가지 는 박자가 195MHz 인 1~2 개의 MIPS R10000 처 
리 기 들로 구성된다. 매 개 R10000 처 리 기는 한주기 에 2 개의 부동소수점연산 (flop) 을 할수 있 
으며 390Mflop/s 의 최대속도를 가진다. 

Origin 2(X)0 의 주기 억 은 물리 적 으로 마디 들속에，하드웨 어 는 캐 쉬 일 관성 을 등록부에 기 
초한 방법 으로 실시한다. 

Origin 2000 은 그림 8-14 에서 보여 주는것과 같이 갈라 져 있지만 모든 마디 들에서 접 
근가능한 DSM 이 다. 기 억 기，호상접 속빛 섬 유， I/O 부분체 계 를 접 속하는데 집 선기 (HUB) 라고 부 
르는 크로스바 ASIC 를 사용한다. 집선기 ASIC 는 4 개의 쌍방향포구를 가진다. 195MHz 박자에 
서 하나의 포구는 780MB/S 의 한방향최대대역너비와 1.56GB/S 의 완전 2 중최대대역너비를 제공 
한다. 



호 a 속 


그림 8-14. Origin 20M 마디의 크로스바집선기소편 


집선기 (HUB) 는 마디 내부 및 마디 호상통신의 경로를 정하는데 사용된다. 이것은 내부의 
통보문형 식 과 XIO 또는 CrayLink 호상접 속에 의 해 사용된 외 부형 식 사이 의 호상변환을 담 
당한다. 

호상변환은 대 면부라고 부르는 4 개의 개 별적 인 조종회 로에 의해 진행된다. 매 개 대 면 
부는 2 개 의 FIFO 를 가지 는데 하나는 들어 오는 통보문들을 위한것 (if:fo) 이 고 하나는 나가 
는 통보문들을 위한것 (of:fo) 이 다. 
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Origin 은 대 역적 인 실시 간박자를 제공한다. 

한개의 집선기는 박자소유자로 지정되는데 이것은 호상접속을 통하여 대역박자를 다 
른 집선기들에로 내보낸다. 

I / O 부분체 계 

Origin 2000 I/O 부분체계는 208개까지의 I/O 포구로 확장할수 있고 임의의 처리기로부터 
접 근가능하게 설계 된다. I/O 자료는 여 러 가지 장치 들로 보내 기 위하여 통보문으로 편성 된 
다. 

통보문형 식 과 경 로정 하기，조종은 XIO 라고 부르는 I/O 규약에 의해 좌우된다. 매 마디 
기 판은 하나의 XIO 포구를 가지 는데 XBOW 라고 부르는 크로스바 ASCI 를 통하여 6개 포구 
까지 확대할수 있 다. 


표 8-6 _ SGI Origin 2000의 구조형태 


속성 

desksides 

시 렁 (rack) 

처리기의 수 

1-8 

2-128 

최 대 속도 (Gflop/s) 

3.12 

49.92 

캐 쉬 기 억 기 용 량 (MB) 

1-32 

2-512 

물리 기 억 기 용량 (GB) 

0.064-16 

0.064-256 

집 체 최 대 기 억 기 대 역 너 비 (GB/s) 

3.12 

49.92 

I/O 포구의 수 

14 

208 

집 체 최 대 I/O 대 역 너 비 (GB/S) 

6.2 

102 


I/O 부분체 계는 그림 8-15 에서 설명된다. XBOW 는 8개 포구크로스바교환기 ASCI 이 다. 모 
든 포구는 XIO 규약을 사용한다. 


PCI PCI PCI PCI PCI PCI PCI PCI PCI PCI 



2 개 의 포구는 마디 들을 접 속하는데 사용되 고 나머 지 6개 는 XIO 장치 들이 나 widget 라고 
부르는 ASCI 들에 직접 접속하는데 사용된다. 


































I 송 4 기 | | 수신기 | 1 송신기 ■ | 수신기 


LLP 


LLP 

SSD/SSR 


SSD/SSR 


6X6 크로스바 1 환기 


Widget 들은 XIO 규약을 도형장치 나 PCI 모선에 서 사용되 는 규약으로 전환하는 대 면 
부이 다. 32 b 또는 64 b PCI 모선들을 통하여 ATM , HiPPI , 이씨 네 트, FDDI , 빛섬 유통로， SCSI , 
VME 모선확장 등과 같은 서로 다른 형태의 I / O 장치들이 Origin 2000에 접속될수 있다. 

XBOW 는 조종정 보와 목적 지 정 보를 결 정한다. 

XBOW 의 8개 포구 매 개는 쌍방향 XIO 련결에 의 해 하나의 마디 또는 widget 접속된다. 물 
리적 으로 XIO 련결은 Cray link 와 같은 기술을 사용하지만 XIO 규약은 I / O 통신흐름에 대 하 
여 최 량화된다. XIO 련결의 최대대 역너 비는 한방향에서 780 MB / S , 완전2중에서 1.56 GB / S 이 
다. 

Origin 2000은 단일!/ O 공간을 제공한다. 즉 임의의 처리기는 임의의 I / O 장치에 접근할 
수 있다. 

실례로 마디 N 1 의 처리기는 자기의 국부집선기와 첫번째 XBOW 를 통하여 도형장 
치 G 1 에 접근할수 있다. 만일 같은 처리기가 국부 XBOW 에 직접 련결되여 있지 않는 원 
격장치 (실 례 로 G 2) 에 접 근하려 한다면 그림 8-15 에 서 보여 주는바와 같이 국부집선기 와 
호상접속빛섬유，마디 N 63 의 원격집선기， XBOW 32 를 거처서 그 장치와 통신하여야 한 
다. 

호상접속구조 

호상접 속구조는 여 러 개 의 마디 들과 경 로조종기 들(그림 8-16) 을 하이 퍼 립 방체 와 같은 위 
상(그림 8-17) 에 따라 접속하는 CrayLink 케블들로 이루어 진다. 

매 CrayLink 케 블은 50개의 서 로 다른 단일 쌍들, 다 해서 100개의 전도체 (선)를 포함 
하는 2중차폐 꼬임 쌍축케 블이 다. 최 대 케 블길 이 는 5 m , 최 소굴곡반경 은 1.25 인치 이 다. 



그림 8-16. Origin 2000호상접속구조에 사용된 SPIDER 경로조종기 소편 
SGI SPIDER 경 로조종기 소편은 통보문들에 대 한 믿 음직 한 완충식 wormhole 경 로정 하기 



























를 제 공한다. 이 것은 state _ of _ the _ art 기 술로 만든 6개 포구크로스바교환기 이 다. SPIDER 소 
편은 백만개 이상의 문들과 여)0개 이상의 핀들을 포함한다. 

매 포구는 박자가 390 MHz 인 한쌍의 한방향 16 b 련결 로 구성 된 다. 그러 한 높은 주파수 
는 선진기술 즉 400 MHz (2.5 ns 주기 시간)만큼 높은 속도를 가능하게 하는 낮은 진동 CMOS 
신호화기 술인 차동 PECL ( positive_shifted ECL ) 과 STL(SGI transistor logic ) 에 의해 만들어 질 
수 있다. 

이 포구들은 Craylink 케 블들을 거 처 마디 들이나 다른 경 로조종기 들에 접 속된 다. 경 로 
조종기는 6개의 포구모두가 완전중복으로 동시 에 동작하도록 한다. 

최 종결과는 높은 통신성 능이 다. 매 개 포구나 CrayLink 는 780 MB / S 의 한방향최 대 대 역 너 
비와 1.56 GB / S 의 완전중복최대대역너비를 제공한다. 

경 로조종기 소편 내 에 서 6개 포구는 동등하다. 외 부주파수가 390 MHz 라고 해 도 경 로조 
종기소편의 내부주파수는 단지 97.5 MHz 이 다. 

원천동기 구동프로그람 (source synchronous driver , SSD ) 파 원천 동기 수신기 (source 
synchronous reciever , SSR ) 는 외부의 390 MHz 16 b 자료와 내부의 97.5 MHz 64 b 자료사이 의 호 
상전환을 담당한다. 

련결수준규약 ( LLP ) 회 로는 믿음직한 통보문넘 기기를 보장한다. CRC 코드를 사용하여 오 
유가 발견되면 미끄러지는 창문규약을 통하여 재전송함으로써 정정된다. LLP 에로의 자료 
전송을 제외 하고 송신자는 하나의 신용도식 (credit scheme ) 을 통하여 흐름조종을 관리 한다. 
수신자는 LLP 로부터 받은 자료를 경 로정 하기표와 송신자에 게 보낸 다. 

SPIDER 경 로조종기 는 작은 하드웨 어 지 연을 가지 는 wormhole 경 로정 하기 를 실 현 한다. 핀 
대 핀 지연은 단지 41 ns 이다. SPIDER 경로조종기는 또한 경쟁과 혼잡을 완화시키기 위한 여 
러가지 기 술들을 사용한다. 매 개 물리 통로당 4개 의 가상통로가 사용된다. 

혼잡조종론리는 통보문들이 256개 수준의 통보문우선권이 지원되는 2개의 가상통로사이 
에서 융통성 있게 교환되도록 한다. 파케트의 우선권은 나이(차단된 시간)에 따라 높아 져 우 
선권이 높은 파케트가 더 좋은 전송기회를 가지도록 한다. 

굵은 하이퍼립방체위상 

Origin 2000경로조종기의 또 하나의 흥미 있는 특징은 재설정(프로그람화)가능하다는것 
이 다. 기정의 위상은 그림 8-17 에서와 같이 하이퍼 립 방체와 같은 형 태(굵은 하이퍼립 방체 
라고 한다.)를 따른다. 그러 나 호상접 속구조안에 서 경 로조종기 들의 경 로정 하기표들을 수정 
하여 다른 위상도 구성할수 있다. 특히 처 리 기들의 수는 그것 의 제 곱이 아니 여도 된다. 경 
로조종기설정은 경로조종기안의 상태 및 조종등록기들을 통하여 진행된다. 

굵은 하이퍼 립방체는 전통적인 2진하이퍼 립방체로부터 수정된다. 이 위상의 흥미 있는 
속성 은 그것 이 하이 퍼 립 방체 의 선형2등분대 역 너 비 의 우월성 을 유지 하는 한편 마디 차수의 증 
가를 피한다는것이다. 

마디차수가 4일 때 16개 정 점하이 퍼립 방체 또는 하이 퍼 립 방체 위 상이 사용된 다면 32 
개 마디 Origin 2000을 구성 할수 있을뿐이 다. 그러 나 굵은 하이 퍼 립 방체 위 상은 Origin 2000 
을 512개 마디까지 확장하게 한다. 이것을 어떻게 실현하는가의 일부는 아래에서 설명하고 
일부는 독자들에게 련습으로 남긴다. 
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이것은 그림 8-17 가) 장치들에 련결한 XBOW 크로스바 교환기에 접속된다. 

SPIDER 경로조와 같이 가장 작은 형태는 1개의 마디를 가지는데 마디는 2개의 처리기 
를 가지며 FO 종기 ( R ) 는 2개의 마디를 접속하며(그림 8-17 L ) 두개의 경 로조종기들은 4 
개의 마디를 접속한다(그림 8-17 n ). 이 형태는 경로조종기들을 하이퍼립방체의 정점들로 
볼 때 2진하이퍼 립방체의 성장과 류사하게 32개 마디까지 보존된다(그림 8-17 H ). 하이 
퍼 립 방체 와의 차이 는 다음과 같다. 



e) 16개 처리기 n) 32개 처러기 H) 64개 처러기 



그림 8-17. Origin 2000에 서 받아 들인 굵은 하이 퍼 립 방체 위 상 
(N: 마디， M: 기 억기，。처 리 기， H: 집선기， R: 경 로조종기) 

• Origin 2000의 위상은《곤두 서 있으머》여기서 2개의 마디는 하나의 경로조종 























































기에 접속된다. 

• 사용되지 않는 경로조종기포구들은 지 연을 줄이고 2등분대 역너 비를 늘이도록 확 
장련결들에 의해 접속될수 있다. 이것은 그림 8-17 근)에서 점선으로 설명된다. 

32 개 마디 이 상에 서 Origin 2000 은 나머 지 경 로조종기 들(메 타경 로조종기 라고 부론다.)을 사 
용하는 굵은 하이퍼 립 방체위상을 받아 들인다. Cray 경 로조종기 라고 부르는 하나의 통안에 
서 8개의 메 타경 로조종기 가 물러적 으로 실현된다. 이 메 타경 로조종기틀은 임의의 마디들 
에 접속되지 않은 중간의 경로정하기를 위하여 단독으로 사용된다. 

64 개 마디 (32 개 정 점 또는 경 로조종기 들) 굵은 하이 퍼 립 방체 위상은 그림 8-17 A) 에서 보 
여 주는데 여 기 서 4 개 의 8 개 정 점 부분립 방체 의 매 정 점 은 메 타경 로조종기 에 접 속된 다. 4 
개 부분립 방체 들의 갈은 모서 리 의 4 개 정 점 들은 같은 메 타경 로조종기 에 접 속된 다. 이 굵은 하 
이퍼 립 방체는 그림 8-17 시의 매개 메 타경 로조종기들을 5 차원하이퍼 립방체 로 교체 함으로 
써 "24 개까지의 처리기로 확장된다. 


분산공유기억기 

Origin 2000 체 계 는 하나의 분산공유기억 기 부분체 계 를 가진다. 

처 리기로서의 같은 마디안의 기 억기모둘들은 가까운 기 억기，다른 마디우의 기억기모 
듈들은 원격기억기라고 부론다. 

한 마디안의 주기억기와 등록부기억기는 동기 DRAM 부분들을 사용하여 실현되며 8 개 
까지의 층으로 조직된다. 매 기억기층은 4 통로끼우기를 제공하며 8 개의 층모두가 상주될 때 
최대로 32 통로끼우기를 제공한다. 기억기부분체 계는 4 통로끼우기 를 가지는 충분한 기 억기 
대 역 너 비 (780MB/S) 를 달성 하도록 충분히 빠르다. 

하드웨 어 는 후쓰기 와 무효에 의해 유지 되 는 등록부에 기 초한 일 관성 규약을 실시한다. 
기 억 기 모형 은 순차일 치 성 이 다. 

임의의 시각에 기 억기 블로크는 다음의 7 개의 캐쉬일관성상태 들중의 하나에 있을수 있 
다. 그중 4 개 는 안정 된 상태 이 며 3 개 는 불안정한 상태 이 다. 이 상태 들은 프로쎄 스마디 들의 
등록부들에 보존된다. 

• Unowned 기 억기블로크가 임의의 캐쉬기억기 에서 꺼내 지지 않는다. 

• Exclusive 기억기블로크가 하나의 처리기에 의한 읽기와 쓰기를 위하여 하나의 캐 
쉬안에 서 정 확히 꺼 내 진 다. 

• Shared 기억기블로크가 읽기만을 위하여 체계 안의 여 러 캐쉬들안에서 꺼 내 지게 
된 다. 

• Poisoned 자료폐지가 다른 마디로 이동되였으며 TLB 가 갱신되여야 한다. 

• Busy Shared , Busy Exclusive , Wait 이것들은 여 러 요청들이 하나의 기 억기위 치 에 
의존하고 있을 때 를 취 급하는 불안정한 상태 이 다. 

처 음에 기 억 기 블로크는 unowned 이 다. 

처리기 바가 이 블로크에 접근할 때 그것은 마의 캐쉬로 옮겨 지며 상태는 exclusive 
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로 된다. 처리기 마는 그 블로크가 배타적인 상태에 있는 한 체계의 나머지에 상관없이 이 
블로크의 패쉬판본을 읽고 쓸수 있다. 

다른 처리기 M 가 같은 블로크에 접근하려고 할 때 그 상태는 shared 로 되며 P 1 와 P 2 
의 마디번 호들은 라와 P 2 의 등록부들에 보존된 다. 

마 가 그 캐 쉬 블로크를 수정 하면 그것 은 dirty 로 표식 되 며 주기 억 기 로 후쓰기 한다 (written 
back ). 그래 서 P 2 는 낡은 복사대 신에 주기 억 기 로부터 가장 최 근에 갱 신된 자료의 복사를 적 
재한다. 2개의 처 리 기는 공유된 자료블로크를 각각의 캐 쉬 로부터 여 러 번 읽 을수 있다. 

그러 나 P 2 이 블로크에 쓰러고 할 때 그것은 무효통보문을 이 블로크를 공유하는 다른 
모든 마디들에 보내 야 한다. 이 정 보는 P 2 의 등록부에서 유지된다. 

일단 무효가 되면 P 2 패쉬의 블로크는 다시 exclusive 로 되며 P 2 은 전진하여 거기에 쓸 
수 있다. 

8. 5. 3. Cellular IRIX 환경 

Origin 2000은 새 로운 기 능들을 계 공하며 SIMP 구조를 효과적 으로 개 발하기 위 한 여 러 
가지 흥미 있는 특징 들을 제 공하는 Cellular IRIX 조작체 계를 실행 한다. 이것은 MPP 들과 클 
라스터들의 우점(실례 로 확대 가능성과 유용성)을 가지는 SMP 의 우월성(실례 로 단일체계 영 
상, 관리하기 쉬운)을 확장하고 있다. 

1996년판본인 Cellular IRIX 6.4 는 모든 Origin 및 Onys 2 Impact 체 계 들에 서 실 행 하는 64 b 
의 다중스레 드，다중프로그람조작체계 이 다. Cellular IRIX 의 설계 목표는 다음과 갈다. 

호환성 Cellular IRIX 는 X / Open , POSIX 와 같은 열 린체 계 표준으로 콤파일 되 며 SGI 의 이 
전 IRIX 5 및 IRIX 6 조작체 계 들과 호환된다. Power Challenge 와 같은 SGI 체 계들우의 현존 응 
용틀은 변경 없 이 Origin 2000우에 서 실 행 될수 있 다. 

• 확대 가능성 동작환경 은 이 전의 체 계 들과 호환되 지 만 Cellular IRIX 의 구조는 Origin 
2000체 계 를 128 또는 그이 상의 처 리 기 들로 확장할수 있 도륵 재 설 계 되 였 다. 대 비 
적으로 SMP 체계들은 보통 10개이상의 처리기에로 효률적으로 확장할수 없다. 
Cellular IRIX 는 1 TB 의 가상기 억기 주소공간을 제 공하며 9백 만 TB 만한 큰 파일 들 
을 지원하는 64 b 조작체계 이다. 이것은 Origin 2000이 대규모문제를 풀수 있게 한 
다. 

• 유용성 항상 SMP 체계들의 약점으로 되여 온 유용성을 높이는데 여러가지 기술 
들이 사용된다. 

• 처 리 량 Origin 2( X )0 은 대 규모적 인 개 별적 계 산문제 들을 푸는 초고속콤퓨터 뿐만아 
니 라 수많은 동시 사용자요청 들을 충족시키 는 고성 능망봉사기 로 사용되 는것 을 목 
적 으로 한다. 체 계의 처 리 량을 높이 기 위 한 기술들이 Cellular RIX 에서 사용된다. 
그래서 하나의 느린 일감이 전체 체계를 느리게 하지 않는다. 

확대 가능성 을 위한 세 포의 개 념 

Cellular IRIX 에서 는 확대 가능성 을 높이 기 위 한 2가지 방법 즉 조작체 계 핵 심부를 모둘 
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화할수 있 는 세 포개 념 과 S 2 MP 하드웨 어 를 효과적 으로 개 발하는 기 억 기 관리 쏘프트웨 어 가 사 
용된 다. 

Cellular IRIX 구조는 핵 심부본문 ( text ) 과 자료를 세 포라고 하는 SMP 크기 의 덩 어 리 들로 
분할한다. 여기서 매개 세포는 핵심부본문과 자료구조에 대한 하나의 국부복사를 포함 
하며 처 리 기들과 기 억기, I / O 장치 들의 모임 으로 구성되는 기계모둘에 대 한 조종을 담당한 
다. 

세 포개 념 의 주요한 특징 은 조작체 계 의 봉사들이 분산되 고 국부화된 다는것 이 다. Origin 
2000에 서 실 행 하는 응용들은 모두 봉사를 위 하여 중앙의 유일 적 인 핵 심 부로 가지 않는데 이 
것은 늘어 난 기계크기 로 하여 병 목으로 된다. 대 신에 세 포는 자기 가 조종하는 기계모 
둘에 접 근하기 위한 모든 봉사들을 제 공한다. 자원들에 대 한 잠금경 쟁 들은 보통 하나의 세 
포로 국부화된다. 

여 러개의 세 포들이 하나의 Origin 체 계 에 상주할수 있으며 이것은 응용들이 여 러 기 계 
모둘들에 동시적으로 그리고 독립적으로 접근할수 있게 한다. 

세 포호상간의 조정 이 필요할 때 Cellular IRIX 구조는 추가적 인 자료복사나 문맥 절 환부 
가처리가 초래되지 않도록 담보한다. 


기억기관러 

Cellular mix 는 S 2 MP 하드웨 어구조의 우월성을 가지는 새 로운 동적 기 억기복제와 이동, 
배 치기구들을 포함한다. 기 억기관러의 기 본단위는 폐지 이 다. Cellular mix 는 사용자의 처 
리 에 의 해 동적 으로 선택 가능한 여 러 개의 패 지 크기 (16 KB , 64 KB , 256 KB , 1 MB , 4 MB , 16 MB ) 
들을 지원한다. 큰 페지 크기를 사용함으로써 득히 대규모자료기지 관리 응용들에서 TLB (table 
lookaside buffer ) 실 부가처 리를 줄일수 있 다. 


기 억 기 복제 

이 것 은 폐 지 를 공유하는 매 개 처 리 기 들에 가장 가까운 기 억 기 위 치 에 서 읽 기 용페 지 의 복 
사를 복제하는 기구이 다. 페지 가 읽기용일 때 하드웨 어는 공유를 찾고 기 억기복제를 수행 
하는 기 억 기 관리 부분체 계 를 호출한다. 


기 억 기이 동 

이것은 처러기가 가장 빈번히 접근하는(읽기 또는 쓰기) 처리기에 가까운 페지를 옮 
기 는 기 구이 다. 기 억기 패 지 가 접 근되 고 있을 때 하드웨 어 계 수기 들은 마디 를 벗 어 나는 참 
조들을 기록한다. 참조들의 수 또는 비률이 어떤 미리 정의된 상대적 또는 절대적인 턱 
값을 지나면 기억기관리부분체계는 그 페지를 이동한다. 

이동은 큰 부가처 리 를 가지 므로 Cellular IRIX 는 지 나친 이 동을 막는 기 술을 통합한다. 
여기에는 반충검사 (bounce detection ) 가 있는데 이것은 페지가 앞뒤로 이동되는것(탁구효과) 
을 막는다. 즉 어떤 페지들을 얼구고(즉 이동불가능) 필요한 때 그것들을 녹인다. 


기억기배치 

이것은 국부성을 실현하기 위한 자료와 스레드들의 초기배정이다. 이것은 체계가 제 
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공하는 기 정 값들이 나 를파일 러 지 령 들，응용구동기 억 기 방책 (memory policies ) 을 사용하여 진 
행할수 있 다. 

Cellular IRIX 환경 은 사용자가 폐 지 들을 다른 페 지 들과의 특정 한 거 리 내 에 배 치 하며 스 
레 드들을 패 지 들로 배 치 하고 스레 드들을 도형 이 나 I / O 와 같은 하드웨 어자원들로부터 특정 
한 거리에 위치시키도록 체계에 알릴수 있다. 

기 억 기 국부 령 역 (Memory Locality Domains, MLD) 

MLD 는 가까이에 배치되는 가상패지들의 모임이다. 얼마나 가까운가는 MLD 의 반경 
으로 측정되는데 이것은 1 + 교차한 경로조종기들의 수이다. 

MLD 사용의 개념을 실례 8.4 에서 설명한다. 

여 러 MLD 들을 하나의 MLDset 로 묶을수 있는데 이것은 특별한 배 치지 령들에 의 하여 기 
계위상에 로 넘 겨 진다. Cellular RIX 에서 방책 모둘은 사용자가 방책(페지화，배 치, 복제, 이 
동 등)들이 하나의 주소범위에서 사용되여야 한다는것을 조작체계에 알릴수 있게 한다. 

실례 8.4. MLD 와 MLDset 의 Origin 2000에 로의 도입 



그림 8-18. MLD 와 MLDset 의 Origin 2000에 로의 모입 


프로그람은 8개 마디 Origin 2000에서 실행 한다. 여기서 매 마디는 64 MB 의 기 억 기를 가 
진다. MLDset 넘기기는 그림 8-18 에서 보여 준다. 프로그람은 각각 48, 32, 24, 32 MB 의 4 
개의 큰 자료구조 A , B , C , D 를 사용하는 6개의 스레드들을 가진다. 

A 와 B 에 대 한 접 근들중 95%는 첫 4개 스레 드들로부터, (그와 D 에 대 한 접근들중 90% 
는 다른 2개의 스레 드들로부터 생긴다. 

이 자료로부터 2개 의 MLD 들로 구성 된 하나의 MLDset 를 정 의 할수 있 다. 첫 번 
째 는 A 와 B 로 이 루어 진 반경 이 2인 MLD 이 고 두번째 는 C 와 D 로 이 루어 진 반경 이 1 인 MLD 
이다. 


유용성 지 원 

Origin 2000하드웨 어 는 ECC 기 억 기 와 여 유전원 및 랭 각，즉시 끼 우기 가능디 스크들 ， RAID 
등과 같은 유용성 지원특징 들을 가지 도록 설계된다. 

호상접 속구조는 고장난 모둘을 분리할수 있 다. 그러하여 일정한 체 계 부분은 나머 지 체 
계 에 영 향을 줌이 없이 정 비를 위하여 전원이 차단될수 있다. 호상접속망은 마디들사이의 
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여러 경로들을 지원하며 결함 있는 파케트들을 찾고 재전송하기 위한 하드웨 어 련결수준의 
규약을 제공한다. 

mix 체계쏘프트웨어는 고속재초기적재를 위한 파일체계실행기록과 같은 유용성을 더 
욱더 높이기 위한 특징들을 포함한다. 즉 정지시간사건들과 지속, 중상들에 대한 감시와 통 
신을 위 한 쏘프트웨 어 availmon , 디스크 반사화 ( mirroring ) 와 RAID , 응용실패 방지를 위한 쏘 
프트웨 어 IRIS FailSafe 를 포함한다. 

Origin 20 W 은 권한 없는 마디들이 기억기와 I / O 장치들에 접근할수 없도록 접근보호 
규칙 들을 제 공한다. 세포개 념 은 조작체 계봉사의 유용성을 지 원한다. 이것은 우연적 인 하 
드웨 어 및 쏘 프트웨 어 의 실패 들을 하나의 세 포내 에 포함한다. 

Cellular IRIX 는 핵 심 부에 기 초한 응용투명 의 검사점재 시동기구를 지 원하는 얼마 안되 
는 조작체계들중의 하나이다. 

사용자는 대 화들과 프로쎄 스들，프로쎄 스묶음들, 열린 파일 들, 관흐름들을 지 원하면 
서 수정 이 없 이 현존 2진코드들을 검 사할수 있 다. 대 기 렬 들과 sockets , 생 디 스크들, 
X - Windows , 도형들，특수한 장치들의 지원을 통하여 고도로 러용가능한 망과 자료기지， 
다른 응용들을 위한 보충적인 지원들이 계획되고 있다. 


처 리 량지원-최 량화된 일 정 짜기 

Cellular IRIX 는 체계들을 효과적으로 실현하고 처 리 량을 효과적으로 높이는 여 러 기 
구들을 제공한다. 여 기 에는 수많은 처 려기들과 사용자의 처 리들을 지 원하는 일정짜기와 높 
은 처 리 량과 담보된 I / O 속도를 지 원하는 64 b 실행기 록파일체 계 XFS 가 포함된다. 

핵 심부는 일정짜기결정 을 만들기 위하여 수미 리 초마다 중지 된다. 프로쎄스들은 선점 
이 주어 진 매개 담보시간구간에서 실행된다. 시간구간의 마지막에 핵심부는 프로쎄스우 
선권에 기 초하여 다음에 어 느 프로쎄 스를 실행하는가를 선택한다. 

실 행중의 프로쎄 스는 또한 자기 를 잠자게 하는 체 계호출을 진행하여 자발적 으로 다른 
프로쎄스에 양보할수 있다. 

Cellular IRIX 6.4 는 3가지 형 태의 일감 즉 시 간공유(호상작용)，실시 간，배 경 (묶음) 
을 지원한다. 실시간처리는 0( 낮음)부터 255( 높음)가지의 범위에 있는 우선권을 가 
진다. 배경처리는 항상 우선권이 0이며 자유 CPU 주기가 리용가능할 때만 실행된다. 호 
상작용의 프로쎄스는 0~40의 우선 권 을 가진다. 

핵 심 부는 화페 식 기 구에 기 초하여 호상작용처 리 들의 일정 을 짠다. 선택된 프로쎄 스는 되 
화되 지 않는 기정의 우선권 20을 가지 고 그것 이 체 계 호출이 나 시 간초과에 의 해 잠자기 에 들 
어 갈 때까지 처리기에서 실행된다. 

화페 식 일 정 짜기 기 구는 매 사용자에 게 우선권을 배 정하는 전통적 인 Unix 일 정 짜기 의 결 
함으로 하여 유도되였다. 새롭게 생긴 프로쎄스들은 같은 우선권을 이어 받으며 이것은 더 
낮은 우선권의 프로쎄스들이 실행할 기회 를 가지도록 프로쎄 스가 실행됨 에 따라 낮아 진 
다. 이 방법으로 상대적으로 높은 우선권을 가지는 단일사용자는 갈은 우선권을 가지는 
여러개의 스레드를 낳을수 있으며 체계를 부당하게 독점할수 있다. 

10개의 처 러기들을 가지는 사용자는 하나의 동등한 프로쎄스와 같은 우선권을 가지는 
사용자보다 10배 의 CPU 시 간을 받는다. 화폐식 일감짜기 에 의해 체 계관리 자는 매 사용자에 
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게 전체 CPU 시 간(화폐 )의 한 몫을 배 정한다. 

처리기들보다 더 많은 프로쎄스들이 있으면 가장 높은 화폐를 가지는 프로쎄스가 실 
행되도록 일정이 짜지며 CPU 를 사용한다(즉 그것의 화폐는 감소한다.). 

더 낮은 화폐를 가지는 프로쎄스들은 실행하지 않지만 자체의 화페는 유지한다. 마 
침 내 기 다리는 프로쎄스의 화페 가 이전에 실행 하는 프로쎄스의것을 릉가하여 실행되게 한 
다. 

화폐 식 일정 짜기 의 기 본우월성 은 일정 짜기 가 단기 최 량화를 하도록 하는 공정 성 의 장기 
보증이 다. 요약하면 Cellular mix 는 다음의 일 정 짜기기 구들을 계공한다. 

• 틀일정짜기 REACT / Pro 틀일정짜기는 일정짜기를 완전히 담당할수 있으며 하나 
이상의 CPU 들의 프로쎄스들을 정확한 전진속도를 담보하면서 신속하게 처 리할 
수 있 다. 

• 무리 일정짜기 Cellular RIX 는 병 렬을 시 작하기 위 한 잠금들이 나 신호기 발들을 사 
용하여 호상통신하는 하나의 스레드묶음을 일정 짤수 있다. 이것은 어떤 스레드의 
자물쇠보유가 그 자물쇠를 기다리고 있는 다른 스레드와 같은 시간간격으로 일정 
짜기가 진행되도록 한다. 

• 처 리기친화력 Cellular IRIX 는 프로쎄스가 마지 막으로 실행 한 CPU 를 자동적으로 
표식 하고 일부 자료나 코드가 캐 쉬 나 국부기 억기 에 남아 있다는 가정 에 기초하여 
같은 CPU 우의 프로쎄 스를 실 행하려 고 시 도한다. 

처 리 량지 원- XFS 파일 체 계 

XFS 는 높은 처 리 량과 담보된 I / O 속도를 지 원 하는 64 b 실 행 기 록파일 체 계 이 다. 500 MB/S 
이상의 집체읽기/쓰기성능이 실현되 였다. 

높은 처리량은 령역개념과 실행기록기술에 의해 달성된다. 

담보된 I / O 속도는 응용들이 파일 체 계대 역 너 비 를 보존하도록 함으로써 달성 된 다. 

XFS 는 512-64 KB 의 범 위 의 론리 블로크크기 를 지 원한다. 그것 은 령 역 개 념 을 통합하여 하 
나의 령역에 포함된 자료가 디스크우의 련속적인 블로크들에 배치되도록 한다. XFS 령역 
은 백만 (2 2Q ) 이상의 블로크들을 가질수 있다. 령역의 사용은 디 스크탐색과 회 전지연을 줄 
이게 하며 I / O 처리량을 높인다. 

실행기 록(기 록하기라고도 한다.)은 모든 파일체 계변화들을 첨 가용실행 기 록파일 에 기 록 
하는 기술이다. 이 파일은 후에 큰 덩어리들로 디스크에 써진다. 실행기록기술은 또한 체 
계회 복시 간을 줄이도록 한다. 체계는 체 계파괴후 Unix 파일체 계 들에서와 같이 시 간을 소비 
하는 과일체 계검 사를 하지 않고 최 근에 갱 신된 파일체 계트랜잭 션의 작은 실행 기 록을 참조 
한다. 
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8. 5. 4. Origin 2000 의 성능 


Origin 2000의 구조적 인 설계는 기 억 기와 FO , 호상접속의 능력들이 모두 기 계 크기의 증 
대 에 비 례하여 확장되는 평형식체 계로 되도록 하는데 큰 주의를 돌리고 있다. 

이것은 표 8-7 과 표 8-8 에서 보여 주는바와 같이 하드웨 어수준에서 크게 달성된다. Origin 
2000의 박자주파수는 195 MHz 또는 약 5 ns 의 주기시간이 다. 

이 표들로부터 집체대역너비(기억기와 I / O , 호상접속)는 처리기의 수에 따라 거의 선 
형으로 증가하며 지연은 단지 로그적으로 커진다는것을 알수 있다. 낮은 지연과 높은 대 
역너비는 Origin 을 다른 DSM 기계들보다 더 강하게 결합된 체계로 되게 한다. 초기성능평 
가는 Origin 이 NPB 나 SPLA 와 같은 병렬과학계 산성능평가기준들에서 좋은 속도증가를 달 
성한다는것 을 보여 준다. 

8. 6. CC - NUMA 구조들의 비교 

표 8-9 에서는 4개의 CC-NUMA 구조들을 그것들의 마디구조와 내부마디의 접속，캐쉬 
일 관성규약들, 다른 성 능개 선특징 들에 따라 비 교한다. 

매 체계는 CC-NUMA 를 실현하는데서 서로 다른 방법들을 사용한다. Dash 는 연구견 
본이 며 다른것 들은 상업 용제 품들이 다. 


표 8-7 _ Origin 2000 의 계층기억기에서의 읽기지연 


자료위 치 

읽 기지 연(박자) 

등록기들 

0 

1차캐 쉬 (소편 내장) 

1-3 

2차캐 쉬 (소편외장) 

10 

국부기억 기 

61 

원격기 억 기 (1 개 경 로조종기 를 거 친다.) 

117 

원격 기 억 기 (2 개 경 로조종기 를 거친 다.) 

137 

원 격 기 억 기 (3 개 경 로조종기 를 거 친 다.) 

157 


표 8-8 Origin 2000 의 대역너비 (GB /이과 지연 (ns) 


체계 구성 

총 최대기억기 

총 최 대 I/O 

호상접속2등분 

기억기읽기 

I/O 수:마디 수: CPU 수 

대역너비 

대역너비 

대역너비 

지연 

1:1:2 

0.78 

1.56 

- 

313 

2:2:4 

1.56 

3.12 

1.56 

497 

2:4:8 

3.12 

6.24 

3.12 

601 

4:8:16 

6.24 

12.48 

6.24 

703 

8:16:32 

12.48 

24.96 

12.48 

805 

16:32:64 

24.96 

51.2 

12.48 

908 

32:64:128 

49.92 

99.84 

24.96 

1112 
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마디 구조 

대 부분의 CC - NUMA 체 계 들은 SMP 마디 들을 받아 들이고 있다. 여 기서 하나의 마디 
는 모선을 통하여 마디의 국부기 억기와 I / O 부분체 계 에 접속된 여 러개의 처 리기들을 포 
함한다. 마디내 의 캐쉬일관성 은 snoopy 규약에 의해 실시 된다. 

이것을 받아 들인 체계들에는 Stanford 의 Dash , Sequent 의 NUMA - Q , Data General 의 
NUMALiiNE 와 HAL SI 등이 있 다. 

이 마디는 실현하기 쉽고 특히 Intel 의 4개 처리기 SHV 기판 (8 丄3을 참고)과 같은 상품 
SMP 기판들의 유용성 으로 하여 대중적 이 다. 그러 나 CC - NUMA 기계 에서 snoopy 모선식 SMP 
마디들의 사용은 다음과 같은 여러 부족점들을 가진다 [393]. 


표 8-9 4가지 CC-NUMA 구조들의 특징비교 


구성 방식 특징 

Stanford 

Dash 

Sequent 

NUMA-Q 

HP/Convex 

Exemplar 

SGI/Cray 
Origin 2000 

마디 

구성 방식 

Snoopy 모선 을 
가진 4 -CPU 

SMP 마디 

Snoopy 모선을 
가진 4 -CPU 

SMP 마디 

빗 장을 가진 
8 -CPU SMP 
마디 

HUB 를 가전 
2 -CPU non 

SMP 마디 

마디사이접속 

2 D 그물 

SCI 고리 

다중 2 D 

SCI 고리 

살찐 초립 방체 

캐 쉬 일관성 
규약 

매 마디 와 등록 
부에 서 대 역 적 
인 Snoopy 

SCI 련결목록 
일관성 규약 

SCI 규약으로부 
터 수정 

Dash 규약으로 
부터 수정 

다른 성능 
특징 

내부마디 
캐쉬 대 캐쉬 
공유 

마디 케 쉬， 

무리일 정 짜기， 
처리기친ᅪ■력 

마디 캐 쉬 

무러 일정 짜기 
페 지 이 동, 배 
치，복제 


긴 원격기억기접근지연 snoopy 모선은 여러 처리기의 지원을 요구하므로 높은 주파수 
를 달성 하기 힘들다. 더우기 원격읽기는 국부 snoopy 모선과 호상접속, 원격 snoopy 모선을 통 
과하여 야 최종적으로 원격기 억기의 자료를 읽는다. 

제한된 원격기억기대역너비 우의 원인들로 하여 원격기억기접근은 Dash 의 경험이 보 
여 주는바와 같이 국부기 억 기 대 역 너 비 의 절 반 또는 1/3의 대 역 너 비 를 달성 한다. 이 문제 를 
완화하기 위하여 & cemplar 는 국부 및 원격 기 억 기 를 늘이는데 마디내 의 크로스바를 사용한 
다. 그러 나 이것 은 원격접 근지연을 많이 줄이 지 못한다. 

큰 입 력 자료체 계 비 용 사용자들이 하나 또는 2개 처 리 기 로 된 입 력 자료수준의 체 계 를 원 
할 때조차도 SMP 마디의 전체 비용을 물어 야 한다. 독자들에게 충고하지 만 비용은 주로 기 
술에 의해서만 결정되지 않는다. 시장요구는 종종 가장 중요한 요인으로 된다. 값비싼 마 
디 구조는 높은 용량으로 생산된다 해도 ( Intel 의 SHV SMP 기판들과 같이) 더 낮은 비 용의 마 
디기 술보다 더 값 눅게 될 수 있 다. 

이 문제 들을 극복하기 위하여 SGI 2000 는 비 SMP 마디 구조를 채 택한다. 매 마디 가 2개 











의 처 리 기를 가지지 만 그것들은 SMP 를 형성하지 않는다. 두개의 처 리 기들은 주소 및 자 
료모선들을 다중화하기 위하여 같은 물리모선을 사용하는 이전의 Intel 8088처 리 기와 같이 
다중화된 방법으로 집선기 (크로스바) 에로의 하나의 모선을 공유한다. 

목적은 집선기의 핀비용을 절약하는것 이 다. 집선기 에 로의 공유모선은 snoopy 모선이 아 
니 다. 마디 내 부의 패 쉬 일 관성 은 등록부일관성 하드웨 어 에 의 하여 진행 된 다. 사실 2개 처 리 
기로 된 Origin 2( X )0 마디의 기능들은 2개의 1 개 처리기마디들과 같다. 

현재의 실현에서는 비용을 줄이기 위하여 2개의 1개 처리기마디들을 하나의 단일마디 
로 묶는다(싼다.). 이때 더 좋은 원격접근지연과 대역너비를 달성한다. 

원격기억기에로의 접근대역너비는 국부기억기대 역 너비와 거의 갈다. 최선의 경우 국부 
읽 기지 연 대 원격 읽 기지 연의 비 는 약 2:1 이 다(표 8-7 을 참고). 즉 원격 기 억 기 의 1 개 hop 에 접 
근하는것은 국부기 억기보다 두배 더 길 다. 지 연은 hop 의 수에 로그적으로 비 례 하여 커 진다. 

다른 체계들에서 국부 대 원격 지 연비는 5:1~10:1이 다. 

체계호상접속 

Dash 는 2차원그물위상을 사용하고 있다. 

NUMA - Q 는 단일 SCI 고리를 사용하며 Exemplar 는 여 러 SCI 고리들을 사용한다. Origin 
2000는 굵은 하이 퍼 립 방체 위 상을 사용한다. 더 큰 구성 에 대 하여 굵은 하이퍼 립 방체 위 상 
은 더 좋은 2등분대 역 너 비 를 제 공하므로 다른 체 계 들보다 확대 가능성 이 더 높다. 그러 나 
오늘의 사용에서 대부분의 실제의 병렬콤퓨터들은 작은 구성을 가진다(실례로 20개 이하의 
처리기). 실제적인 설계，생산，시장조사를 통해서만 낮은 확대가능위상이 충분한가를 말 
할수 있다. 

CC - NUMA 기계들의 호상접속설계에서 공통적인 경향은 낮은 지연과 높은 대역너비를 
달성 하기 위하여 마디 들을 매 우 조밀 하게 한데 묶을것 을 요구하지 않는다는것 이 다. 

조밀 하게 한데 묶는것 은 이 전 세 대 의 MPP 들과 PYP 들의 기 본특징 이 다. 이 렇 게 강하게 
묶은 체계들에서 통신련결이나 케블들은 짧고 규정된 길이를 가져야 한다. 대비적으로 
NUMA - Q 에서 SCI 고리의 련결들은 15 m , Origin 2000의 Craylii 止는 5 m 만큼 길어도 된다. 

일 관성 규약 

현재 의 모든 CC - NUMA 체 계 들은 어 떤 형 태 의 등록부식 캐 쉬 일 관성 규약을 사용한다. 그 
러 나 NUMA - Q 와 Exemplar 는 IEEE SCI 표준에 서 정 의 한것 을 사용하며 Dash 와 Origin 2000 
은 독자적 인 규약들을 사용한다. Origin 규약은 Dash 규약으로부터 많이 수정된다. Exemplar 
규약은 IEEE SCI 표준으로부터 약간 수정된다. 

그밖의 특징들 

하나의 SMP 마디 는 매 개 가 하나의 소편외 장캐 쉬 (보통 2차캐 쉬 라고 부론다.)를 가지 는 여 
러개의 처 리기들을 가진다. SMP 마디의 사용은 캐쉬들사이의 마디내의 자료공유를 가능 
하게 하는데 이것은 Dash 구조로 실현된다. NUMA - Q 와 Exemplar 는 매 마디에 NUMA - Q 에 
서는 원격패쉬， Exempalr 에서는 클라스터캐쉬라고 부르는 3차 (third level ) 캐쉬를 사용한다. 

이 마디캐 쉬는 이 전의 실패 들로부터 그 마디 로 가져 온 원격자료를 꺼 내 는데 사용된 
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다. 그러므로 마디는 원격자료를 가지며 자주 나가지 않아도 된다. 

Dash 와 Origin 2000은 마디캐쉬가 원격지연을 늘이고 대역너비를 줄인다고 보기때문 
에 그러한 마디캐쉬 를 사용하지 않는다. 대 신에 실패 를 줄이 기 위한 페 지이동과 페지 복제 
와 같은 기술들을 사용한다. 

8.7. 참고문헌주해와 련습문제 

공유기 억 기 다중처 리 의 문제 점 은 Alexander et al.[21], Amarasingbe et al.[28], Baron et 
al.[62], Catenzaro[132], Culler et al.[181], Dubois 와 Scheurich[217], Gajski 와 Peir[258], 
Hwang[327], lenoski 와 Weber[406], Shang 과 Hwang[552], Syanarayanan[534], Thakkar et 
al.[610], Yew 와 Wah[662] 에서 론의된다. 

Holt et al.[319] 는 DSM 기 계 의 응용들과 구조적 병 목들을 해 석 한다. 

Hwang et al.[329] 는 과학적 인 병 렬 처 리 를 위 한 수직 다중처 러 기 구조를 제 기 한다. 다중 
처리기들에 대한 성능모형은 Marson et al.[430], Bhuyan 과 Zhang[8] 에서 론의된다. 부분계 
타방정 식 들을 풀기 위한 다중처 리 기 들의 사용은 Wang 과 : Hwang[635] 에 서 론의 된 다. 

Intel SHV 기 판들은 Intel Web Sites[346] 에 서 론의 된 다. SHV 기 판들은 Clark 와 Alnes[159], 
Lovett 와 Clapp[420], Weber et al.[639] 에서 서술된바와 같이 여 러 상업 용공유기 억기 체계들 
에서 사용되였다. 

Sun SMP 봉사기 들은 Catenzaro[132], Ceklevet al.[134], Fenwick et al.[239] 에서 서술된다. 

Gigaplane 은 Singhal et al[561] 에 서 서 술되 는 Sun Ultra Enterprise 10000 에 서 사용되 였 다. 

HP/Convex Exempla 는 Convex[165, 166], Brewer 와 Astfak[110], Sterling et al[586] 에 서 서 
술된 다. 

Sequent NUMA-Q 2000 은 Lovett Clapp[420], Lovett et ak[421] 에서 서술된다. 

SGI Origin 2000 체 계 는 Laudon 과 Lenoski[393], SGI[550], Whitney et al.[643] 에 서 론의된다. 

문 제 

문제 8.1. 다음의 용어 들을 정 의하시 오. 

(1) 분산트랜잭션모선 

(2) 특수기억기요청 

(3) 원격캐쉬 (마디 캐 쉬，콜라스터 캐 쉬 로도 알려 져 있다.) 

(4) 캐 쉬 행 의 home 마디 

문제 8.2. 8.1.3 의 INTEL SHV SMP 기판을 고찰하시오. 

(1) OEM 포구란 무엇인가? 

(2) OEM 포구를 리용할수 있 는것 3가지 를 드시 오. 

(3) 32b 의 캐 쉬 행 크기 와 60ns 의 주기 억 기 주기 시 간을 가진 다고 하자. 기 판에 하나 
의 처 리 기 만이 있을 때 최 소기 억 기 접 근지 연을 구하시 오. 


(4) 32 b 의 캐 쉬 행 크기 와 60 ns 의 주기 억 기 주기 시 간을 가진 다고 하자. 기 판에 4개 의 

처 리기가 있을 때 달성할수 있는 최대기 억기대역너 비를 구하시오. 

문제 8.3. 8.4 에 서 Sequent NUMA-Q 2000체 계 를 고찰하시 오. 

(1) NUMA-Q 설계의 기본전략은 상품 및 표준구성요소들을 사용하는것이다. 

NUMA-Q 에 서 사용된 5개 의 상품구성요소들과 2개 의 전용구성 요소들을 드시 

오. 

(2) 왜 하나의 마디 에 2개의 원격캐쉬지 령(꼬리표, tag ) SDRAM 이 있는가? 

문제 8.4. 그림 8-17 을 참고하면서 다음의 물음에 대답하시오. 

(1) 모든 express 련결들을 첨부하여 그림 8_17을 다시 그리시오. 

(2) 모든 실 패련결 들을 첨 부하여 그림 8-17 을 다시 그리 시 오. 

(3) 128개 마디 (256 개 처리기) Origin 2000의 굵은 하이퍼립방체위상을 설명하시오. 

(4) 512개 마디 (1024 개 처리기) Origin 2000의 굵은 하이퍼립방체위상을 설명하시오. 

문제 8.5. Sequent NUMA-Q 2000과 SGI Origin 2000의 구조적 차이 점 을 5개 드시 오. 기 
계크기, 기 억기용량과 같은 능력 에서의 차이는 없다. 매 구조적차이 에 대 하여 어느 체계 가 
우월한가를 설명하시오. 

문제 8.6. 이 장에서 서술한 적 어도 하나의 체계 에 의해 자료국부성을 실현하는데 사 
용된 기술 4가지를 들고 간단히 설명 하시오. 

문제 8.7. 이 장에서 서술한 적 어도 하나의 체계 에 의해 지 연을 숨기는데 사용된 기 
술 4가지를 들고 간단히 설명 하시오. 

문제 8.8. 이 장에서 서술한적어도 하나의 체계에 의하여 지원확대가능성을 높이는데 
사용된 기술 5가지를 들고 간단히 설명하시오. 

문제 8.9. 이 장에서 서술한적어도 하나의 체계에 의 하여 유용성을 높이는데 사용된 기 
술 5가지를 들고 간단히 설명하시오. 

문제 8.10. 이 장에서 서술한 적어도 하나의 체계에 의하여 관려가능성을 높이는데 사 
용된 기술 4가지를 들고 간단히 설명 하시오. 
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제 9 장. 클라스터화와 유용성의 지원 


클라스터들은 콤퓨터의 클라스터, 워크스테 이션의 클라스터, 워크스테 이션의 망 등과 
같은 많은 이름으로 콤퓨터전문가들에게 알려 져 있다. 클라스터화는 비용이 효과적이 
고 확장가능한 병 렬콤퓨터들을 개발하는데서 하나의 동향으로 되고 있다. 클라스터의 기 
본개념들은 1.4 에서 소개되였다. 

이 장에 서 는 클라스터 설 계 원 리 들을 론의 하며 여 러 대 의 를퓨터 들을 클라스터 화하기 
위하여 필 요한 하드웨 어 및 쏘프트웨어 의 지 원을 고찰한다. 

다음장에서는 이 클라스터화기술들이 콤퓨터들의 상업 또는 연구클라스터들에 어떻 
게 통합되는가를 보여 준다. 

9.1. 클라스터화에서의 도전 

먼저 클라스터들에 대한 분류법을 줌으로써 클라스터개념을 명백히 한다. 

다음 임의의 클라스터체계의 설계자와 사용자가 처리하여야 할 문제들을 명백히 한 
다. 이 문제들을 풀기 위한 기술들은 순차적인 부분들에서 론의된다. 

9. 1 . 1 . 클라스터의 분류 

클라스터는 문헌들에서 종종 동의어들을 혼동시키면서 여 러가지 방법으로 분류되였 
다. 4개의 독립적인 속성들 즉 묶기와 조종，동질，보안을 사용하여 클라스터들을 분류 
한다. 기 본흐름의 유지 및 간단화를 위하여 표 9-1 에 서 와 같이 매 속성 에 대 하여 2개 의 
값만을 허 용한다. 현재 전용클라스터 와 기 업클라스터 라고 하는 2개 의 조합만이 실제 의 
클라스터들에서 사용된다. 그러나 개념적으로는 모두 16개의 조합이 가능하다. 


표 9-1 _ 클라스터분류에서 사용한 속성 i 


속성들 

속성 값 

묶기 

치밀 하다 

늘어 지 다 

조종 

집중식 

분산식 

동질 

동질 

이질 

보안 

밀폐 식 

로출식 

실례 

전용클라스터 

기업들라스터 


묶기 

콜라스터의 마디들을 치밀하게 묶을수 있다. 치밀한 콜라스터에서 마디들은 방안에 
서 있는 하나 또는 그이상의 시렁에서 치밀하게 묶여 지며 주변장치들(모니터，건반, 마 
우스 등)에 련결되지 않는다. 
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Goden Bell 은 그러 한 마디 들을 머 리 없는 워크스테 이션 이 라고 부론다 [6 刀. 클라스터 에 
서 마디들은 그것들의 상용주변장치들(즉 그것들은 완전한 SMP 들과 워크스테 이션들, PC 
들이다.)에 련결되며 서로 다른 방들，서 로 다른 건물들 지 어 지 러적으로 멀리 떨어 진 
지역들에 위치해도 된다. 

묶기는 통신선길이에 직접적으로 영향을 주며 따라서 호상접속기술의 선택에도 영향 
을 준다. 치밀한 클라스터 는 흔히 전용으로 된 높은 대 역의 낮은 지 연통신망을 리용할수 
있으며 한편 늘어 진 클라스터 의 마디들은 보통 표준 LAN 들이 나 WAN 들을 통하여 접속 
된 다. 

조종 

클라스터는 집중식 또는 분산식으로 조종되거 나 관리될수 있다. 치밀한 클라스터는 
보통 집중식조종을 가지며 늘어 진 클라스터는 두 형식으로 조종될수 있다. 

집 중식 콜라스터 에 서 모든 마디 들은 중앙운영 자에 의하여 소유되 고 조종되 며 관리 되 
고 지배된다. 

분산식클라스터에서 마디들은 개별적인 소유자들을 가진다. 실례로 백화점에서 호상 
접속된 탁상용워크스테이션들로 이루어 진 클라스터를 보면 매 워크스테 이션은 한명의 
종업원에게 소유된 다. 

소유자는 임 의의 시각에 워크스테 이 션을 재설정하거 나 갱 신하며 지 어 완료시 킬수도 
있 다. 단일 조종점 이 없으면 그러한 클라스터 에 대 한 체 계관리 가 대 단히 힘 들게 된 다. 이 
것 은 또한 프로쎄 스의 일 정 짜기，작업 부하의 이 동，검 사점 , 회 계 등을 위한 특수한 기 술 
들을 요구한다. 


동질 ( Homogeneity ) 

동질의 클라스터 란 마디들이 갈은 가동환경을 채용한다는것을 의미한다. 즉 그것들 
은 같은 처리기구조와 같은 조작체계를 사용한다. 흔히 마디들은 같은 판매자들로부터 
구입 된 다. 

이질클라스터는 서로 다른 가동환경의 마디들을 사용한다. 이질클라스터들에서 호상 
운영성은 중요한 문제이다. 실례로 프로쎄스의 이동은 흔히 부하평형이나 유용성에 필요 
하다. 

동질클라스터에서 프로쎄스의 2진코드는 다른 마디로 옮겨 가 실행을 계속할수 있다. 
이 질클라스터 에서는 프로쎄스가 다른 가동환경의 마디로 이동하면 2진코드는 실행할수 
없기 때 문에 동질클라스터 에 서 처 럼 다른 마디로 옮겨 가 실 행 할수 없 다 . 

보안 

클라스터내부의 통신은 로출되거 나 밀페 될수 있 다. 

로출된 클라스터에서 마디들사이의 통신경로들은 바깥세계에 로출된다. 바깥쪽의 기 
계는 표준규약들(즉 TCP / IP ) 을 사용하여 통신경로들에 접근할수 있으며 따라서 개별적 인 
마디 들에도 접 근할수 있 다. 그러한 로출된 클라스터 들은 실 현하기 는 쉽 지 만 여 러 가지 부 
족점을 가진다. 로출된 클라스터내의 통신은 통신부분체계가 보안을 담보하는 보충적인 
동작을 수행하지 않는다면 안전하지 못하다. 
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바깥쪽 통신들은 클라스터내의 통신들을 예측할수 없는 형래로 와해시킬수 있다. 실 
례로 무거운 BBS 통신흐름이 생산일감들을 와해시 킨다. 표준통신규약들은 높은 부가처 리 
를 가지는 경향이 있다. 

밀페식콜라스터에서 클라스터내의 통신은 바깥세계로부터 차페되며 이것은 우의 문 
제 들을 완화시 킨다. 부족점 은 현재 효률적 이 고 밀폐된 클라스터내부의 통신을 위한 표준 
이 없다는것 이 다. 결과 대부분의 상업 또는 대학의 클라스터들은 어떤 종류의 규약들중 
의 하나를 통하여 고속통신을 실현한다. 


전용 대 기업 콜라스터 

Louis Turcotte [62 이은 클라스터를 2개의 부류 즉 전용클라스터와 기 업클라스터로 나 
누었다. 전용클라스터는 다음의 특징들을 가진다. 

• 전형적으로 중앙콤퓨터실의 책상면시렁에 설치된다. 

• 전형 적 으로 같은 형 태의 마디 들에 의하여 동질적 으로 구성된다. 

• 대 형 콤퓨터 와 같이 단일 한 관리 자그롭에 의해 관리 된 다. 

• 전형적으로 앞단의 체계를 통하여 접근된다. 

• 전용클라스터 는 전통적 인 대 형콤퓨터 들이나 초고속콤퓨터 들의 내 용으로 사용된다. 

전용클라스터는 단일한 하나의 기계로서 설치되고 관리된다. 많은 사용자들이 콜라 
스터 에 접 속하여 호상작용 및 묶음일 감들을 실 행할수 있 다. 클라스터 는 감소된 응답시 간 
만큼 더 개선된 처 리 량을 제공한다. 

기 업클라스터 는 주로 마디 의 아무 일도 하지 않는 자원들을 리용하는데 사용된다. 
이것은 다음의 특징들을 가진다. 

• 매 마디는 보통 필요한 모든 주변장치들이 련결된 충분히 완성된 SMP 나 워크스 
테 이션， PC 이 다. 

• 마디들은 전형적으로는 지리적으로 분산되여 있으며 반드시 같은 방에 또는 같 
은 건물에 있어야 하는것은 아니다. 

• 마디들은 개별적으로 여러 소유자들에게 소유된다. 클라스터관리자는 마디가 그 
사용자에 의해 임의의 시각에 막힐수 있기때 문에 마디 들에 대 한 조종을 제 한하 
기만 한다. 소유자의 론리적일감들은 기 업 일감들보다 우선권이 더 높다. 

• 클라스터 는 종종 이 질의 콤퓨터마디 들로 구성 된다. 마디 들은 흔히 낮은 가격의 
이써네 트를 통하여 접속된다. 

9. 1 . 2. 클라스터의 구조 

클라스터의 마디들을 그림 1.2 에서 보여 주고 그림 9-1 에 다시 그린것과 같은 3가 
지 방법들중의 한가지 방법으로 접속될수 있다. 

대 부분의 클라스터 들에서는 공유 없는 구조가 사용된다. 여 기서 마디들은 I/O 모선 
을 통하여 접 속된 다. 디 스크공유구조는 업 무응용들에 서 작은 규모의 유용성클라스터 를 
허용한다. 한 마디가 고장나면 다른 마디가 계승한다. 


428 



L) 디스크공유 



도) 기 억기공유 


그림 9-1. 콜라스터 의 마디 들을 접 속하는 3가지 방법 


기 억기공유클라스터들은 최근에 생겨 났다. 한가지 실례는 Sequent NUMA - Q 콤퓨터 
[345] 이 다. 이 것은 하나의 마디 에서 4개 의 Intel Pentium Pro 처 리 기 를 사용하며 마디 틀은 
SCI 고리로 접속된다. SCI 는 NIC 모둘을 통하여 마디의 기억기모선에 접속된다. 기억기공 
유구조에서 호상접속은 매 마디의 기 억기모선에 련결된다. 다른 2가지 구조에서는 호상 
접속이 I / O 모선에 련결된다. 기억기공유구조는 다음의 원인으로 하여 다른것들보다 실현 
하기 힘들다. 


• 기 억 기 모선이 보통 I / O 모선보다 더 높은 주파수에서 동작한다. 

• 기억기모선에 대한 표준을 폭넓게 받아 들이지 않는다. 그러나 I 八)모선들에 
대 한 그러한 표준들은 있다. 최 근에 인기 있 는 표준은 PCI I 八)모선표준이 다. 
그러므로 만일 더 빠른 이써네트를 클라스터마디의 PCI 모선에 련결하는 NIC 
기판을 실현하면 이 기판이 I / O 모선으로서 PCI 를 사용하는 다른 체계들에서 
사용될수 있다는것을 담보할수 있다. 

• I / O 모선은 기억기모선보다 더 느린 속도로 동작한다. PCI 모선으로 접속된 클라 
스터를 생각하자. 처리기들이 갱신되거나 마디구조가 다른 가동환경으로 변화될 
때 새 체계가 여전히 PCI 를 사용하는 한 호상접속과 NIC 는 변화시키지 않아도 
된 다. 기 억 기 공유클라스터 에 서 처 러 기 의 변화는 마디 기 판과 NIC 기 판의 재 설 계 를 
의 미 한다. 
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9. 1 ■ 3. 클라스터의 설계문제점 


클라스터의 개발과 러용에서는 여러개의 문제들이 고려되여야 한다. 이것들은 많은 
연구가 진행되였지만 여전히 활발한 연구 및 개발분야이다. 

4개 의 중요한 문제 들 즉 유용성 지원，단일체 계영상, 일감관리, 효률적 인 통신을 아래 
에 서 소개한다. 


유용성 지 원 

클라스터 들은 처 리 기들과 기 억기들，디 스크들, I/O 장치 들, 망들, 조작체 계형 태들에서 
많은 여유를 가지는 가격 이 적 당히 높은 유용성을 제공할수 있다. 그러 나 이 능력을 실 
현하려면 유용성기술들이 필요하다. 이 기술들은 DEC 클라스터들 (10.4) 과 IBM SP 2(10.3) 
이 높은 유용성을 어떻 게 달성하는가를 론의 할 때 설명한다. 

단일체계영상 

이써네트로 접속한 워크스테 이 션들의 모임 이 반드시 클라스터 인것은 아니 다. 클라스 
터는 단일체 계이 다. 

간단한 실례를 들자. 워크스테이션이 300 Mflop/s 의 처리기와 512 MB 의 기억기， 4 GB 
의 디스크를 가지며 50명의 활동사용자들과 1000개의 프로쎄스들을 지원할수 있다고 하 
자. 그러한 워크스테 이 션들 100개 를 클라스터화하여 30 Gflop/s 의 처 러기와 50 GB 의 기 억 
기, 400 GB 의 디스크를 가지며 5000명의 활동사용자들과 100000개의 프로쎄스들을 지 원 
할수 있는 하나의 거대한 워크스테 이션과 동등한 단일체 계를 만들수 있겠는가? 

이것은 흥미 있는 목표이지 만 실현하기 대 단히 힘들다. 단일체 계영상 ( SSI ) 은 이 목표 
를 달성하는데로 지향되고 있다. 


일감관리 

클라스터들은 보통 고도로 러용되지 않는 일반적인 워크스테이션이나 PC 마디들을 
벗어 나 높은 체계리용을 달성한다. 일감관리쏘프트웨 어는 묶음처리와 부하평형，병렬처 
리, 다른 기능을 제공하는데 필요하다. 이 문제는 9.5 에서 론의된 다. 

효률적인 통신 

MPP 보다도 클라스터 를 위 한 효률적 인 통신부분체 계 를 개 발하는것 이 힘 들다. 여 기 에 
는 여러가지 리유가 있다. 

• 더 높은 마디 복잡성 으로 하여 클라스터마디 들은 MPP 마디 들만큼 치 밀 하게 묶을 
수 있다. 

• 콜라스터내 에서 마디호상간의 물리 적선길 이 는 MPP 에서 보다 더 길 다. 이것은 집 
중식 클라스터 들에 서도 마찬가지 이 다. 긴 선은 더 큰 호상접 속망지연을 가져 온 
다. 그러 나 보다 중요하게 더 긴 선은 더 높은 믿 음성 과 박자이즈러짐，교차대 화 
문제들을 가진다. 이 문제들은 믿음직하고 안전한 통신규약을 요구하며 부가처 
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리를 증가시킨다. 

• 클라스터들은 흔히 TCP/IP 와 갈은 표준통신규약들을 가지는 상품망들(실례로 이 
써네트， ATM) 을 사용한다. 상품적구성요소틀은 Moor 의 법칙을 만족시키지만 
TCP/IP 규약들은 높은 부가처 리를 가진다. 저수준통신규약들은 7.4.3 에서 론의한 
것과 같이 더 효률적 이다. 그러나 현재 저수준통신규약에 대한 표준은 없다. 

7.4.3 에서 론의한 통신기술은 클라스터들에서 사용될수 있다. 

효률적인 통신이 어떻게 달성되는가를 Berkeley NOW 과제 (10.5) 와 DEC 클라스터들 
(10.4), IBM SP2(10.3) 에서 보여 준다. 

러상적인 콜라스터구조 

여기서는 그림 9-2 에서 보여 주는것과 같은 구조를 가지는 리상적인 클라스터를 상상 
한다. 프로쎄 스마디 들은 워 크스테 이 션과 PC, SMP 봉사기，지 어 초고속콤퓨터 들이다. 마디 
의 조작체 계들은 다중사용자，다중과제，다중스레 드체계들이다. 마디는 동질 이거 나 이질일 
수 있 다. 마디 들은 하나 또는 그이 상의 고속상품망들에 의해 호상접 속된 다. 이 망들은 표 
준적 인 통신규약들을 사용하며 이써네트우의 현재의 TCP/IP 보다 두자러 더 높은 속도로 
동작한다. 

I 프로그람작성 환경 I WebWindows I 다른 부분체게 들 

I (Java. C. Fortran: MPI. PVM^ I ■과대면부 ■ (Database, OLTP, -f.) \ 


단일체계형대하부구조 


TT 용성 하부구조 

OS 


OS 


OS 

마디 


마디 

• • • 

마디 

1 


1 


1 

기가비트상름호상접속 


그림 9-2. 유용성과 단일체계영상에 대한 충분한 지원을 
가지는 작업콜라스터의 구조 

매 마디의 망대면부회로는 표준！/ O 모선(실례로 PCI) 에 접속된다. 처리기나 조작체계 
가 변화되면 구동쏘프트웨어만 변화시키며 망이나 망대면부는 변화시키지 않는다. 

가동환경독립 의 쏘프트웨어 부분체 계 들의 모임 은 마디 의 가동환경 의 최 상위 에 위 치한다. 
높은 유용성봉사들을 제 공하는 하나의 유용성 부분체 계 가 있 다. 

단일체계영상층은 단일입 력자료, 단일파일계층, 단일조종점，단일일감관러체 계를 제 
공한다. 

단일 기 억 기 는 를파일 러 또는 실시 간서고기 술의 도움으로 실 현되 게 된 다. 

단일프로쎄스의 공간은 반드시 지원되지 않는다. 

클라스터의 이러한 유용성은 3 가지 형태의 부분체계들에 의해 지원된다. 
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• 첫 째 로, 일 반적 인 자료기 지 들과 OLTP 감시 기 들은 사용자에 게 워 크스레 이 션 에 서 
와 꼭 같은 환경을 제공한다. 

• 둘째 로, 일 반적 인 순차프로그람작성환경외 에 클라스터 는 표준적 인 언어 들과 통 
신서 고들에 기 초한 병 렬프로그람작성 을 지 원한다. 환경 은 또한 결 함수정 , 감시 
등을 위 한 도구들도 포함한다. 

• 셋째로, 사용자대면부부분체계는 Web 대면부와 원도우즈 GUI 의 우월성들을 결합 
한다. Foxetal[252] 는 그러 한 환경 을 WebWindows 라고 부른다. 그것 은 또한 사용 
자들이 도움말과 개별지도, 실례，론증, 자주 제기되는 물음들에 대한 대답 등을 
쉽 게 참고할수 있도록 여 러 가지 프로그람작성환경 과 일 감관리 도구，초본문 및 
탐색 지원에 대 한 친절한 사용자련결을 제 공한다. 

9. 2. 클라스터화에 대한 유용성지원 

건전하고 고도로 유용한 체 계설계 에서는 흔히 3 가지 술어 즉 믿음성，유용성，편리성 
(RAS 로 생략한다.:)이 함께 나타난다. 

유용성 은 아래 에 서 정 의하는바와 같이 믿 음성 과 봉사성 의 결 합개 념 이 기 때 문에 가장 
흥미 있다. 

믿음성은 체계가 얼마나 오래동안 고장없이 동작할수 있는가를 측정한다. 

유용성은 체계가 사용자에게 리용가능한 시간의 백분률 즉 체계실행시간의 백분률을 
가리 킨다. 

편리성 은 하드웨 어와 쏘프트웨어의 정 비，수리，갱 신 등을 포함하는 체 계봉사가 얼마 
나 쉬운가로 평 가한다. 

실례 9.1. 표준 (average) 콤퓨터체계의 유용성 

RAS 에 대한 요구는 실제적 인 시장요구에 따른다. 

최근의 Find/SVP 개괄은 큰 1000 개 회사들속에서 다음의 특징들을 발견하였다. 평균 
4 시 간의 정지시 간을 가지는 표준콤퓨터 는 한해 에 9 배씩 적 어 진다. 정지시 간당 평균소득 
손실은 82500$ 이 다. 그러 한 무거 운 벌금으로 하여 많은 회 사들은 24X365 의 유용성 을 제 
공하는 체 계 즉 하루에 24 시 간, 1 년에 365 일 리 용가능한 체 계를 위 하여 노력 하고 있다. 

9.2.1. 유용성개념 

그림 9-3 에서와 같이 콤퓨터체계는 보통 그것 이 고장나기전의 시간구간에서 동작한 
다. 다음 고장난 체계는 수리되여 정상적인 동작에로 돌아 온다. 


OK 고장 ( 고장발생 ) OK 


정상 동작 

수 러 중 

시 긴 

매一 고장까지의 시간 (MTTF) — 

•— 수 러 시 간 (MTTR) —► 



그림 9-3. 콤퓨터체계의 동작-수려주기 
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믿음성과 유용성, 편리성 (RASH 대한 정의와 척도들이 혼돈되는 경우들도 있다. 여 
기서는 이 술어들을 다음과 같이 구분한다. 

정의 9.1. 체 계의 믿음성은 고장나기까지의 평 균시 간 (mean time to failure , MTTF ) 으로 
측정된다. 이것은 체계(또는 체계의 구성요소)가 고장나기전까지 정상동작의 평 균시간이 
다. 편리성 에 대 한 척 도는 수리 하기 까지의 평 균시 간 (mean time to repare , MTTR ) 이 다. 이 
것은 체계를 수리하고 고장나기전의 작업환경을 재현하는데 걸러는 평균시간이다. 그러 
면 체계의 유용성은 


유용성 = 


MTTF 

MTTF + MTTR 


(9.1) 


로 정의된다. 


예정고장 대 비예정고장 

RAS 를 고찰할 때 체 계의 정상동작을 방해하는 임의의 사건을 고장이 라고 부론다. 
이것은 다음의것들을 포함한다. 

• 비예정 고장 체 계는 조작체 계파괴，하드웨 어고장, 망의 비접속, 사람의 동작오유， 
정전 등으로 하여 파괴된다. 이것들은 모두 간단히 고장이라고 부론다. 체계는 
수리되 여 그 고장을 고처 야 한다. 

• 예정된 닫기 체계는 파괴되지 않지만 갱신과 재설정，정비를 위하여 주기적으 
로 정상동작을 중지한다. 체 계는 또한 주 말이 나 명절에 닫길수 있다. 


표 9-2 _ 콤퓨터제계형태들의 유용성 


체계형래 

유용성 (%) 

한해의 정지시간 

전통적인 워크스테이션 

99 

3. 6 일 

고유용성 체 계 

99.9 

8.5 시 간 

고장회 복체 계 

99.99 

1 시간 

고장허 용체 계 

99.999 

5 분 


표 9-2 는 대 표적 인 몇개 체 계 들의 유용성값들을 보여 준다. 실례 로 워 크스테 이 션은 
99% 의 유용성 을 가지 는데 이 것은 한해의 99% 시 간동안 동작하고 있다는것 을 의 미한다. 
정지시간은 1 년의 1% 인데 이것은 거의 3.5 일이다. 

유용성 의 정의는 예정된 정지시 간을 고려하지 않는데 이것 이 중요할수도 있다. 실례 
로 많은 초고속콤퓨터의 설치는 주당 여러 시간의 예정된 정지시간을 가지지만 전화교환 
기체계는 해마다 몇분의 정지시 간(예정된 또는 예정되지 않은)도 허 용할수 없다. 

일시적인 고장 대 영구적인 고장 

많은 고장들은 일시적 이다. 그것들은 일시적으로 생기 고 사라진다. 그것들은 어떤 구 
성요소의 교체도 없이 처리될수 있다. 표준적인 방법은 체계를 복구하고 시동하는것이다. 
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실례 로 굳어 진 건반과 창문과 갈은 일시 적 인 고장들을 회 복하기 위하여 PC 를 다시 초 
기적재 한다. 

영구적인 고장은 다시 초기적재하여 고칠수 없다. 일부 하드웨어 또는 쏘프트웨어의 
구성 요소는 수러 되거 나 교체 되 여 야 한다. 실 례 로 재 초기 적재는 체계의 하드디 스크가 파 
괴되면 수행되지 않는다. 

부분적고장 대 전체적고장 

전체 체계를 러용할수 없게 하는 고장들을 전체적고장이라고 부론다. 

체계의 부분에만 영향을 주는 고장은 만일 체계가 낮아 진 능력으로라도 여전히 리 
용가능하면 부분적 고장이 라고 부론다. 

유용성을 높이는 주요한 방법은 단일고장점들을 체계적으로 제거하여 가능한껏 많은 
고장들을 부분고장으로 만드는것 이 다. 

여기서 단일고장점들은 전체 체계를 허무는 고장을 가져온 하드웨어 또는 쏘프트웨 
어의 구성요소들이다. 

실례 9.2. STP 와 틈퓨터들의 클라스터에서 단일고장점들 

그림 9-4 1) 에서 보여 주는 SMP 에서 공유기억기와 OS 형태，기억기모선은 모두 단 
일고장점들이다. 

한편 처리기들은 단일고장점이 아니다. 

이씨네트로 접속한 워크스테 이 션들의 클라스터(그림 9-2 L ) 에는 여 러개의 OS 형 태 
가 있는데 그 매개는 하나의 워크스테이션안에 상주한다. 이것은 SMP 의 경우와 같이 
OS 에 의한 단일고장점 으로 되 지 않는다. 그러 나 이써네 트는 하나의 단일 고장점 으로 되 
는데 이것은 그림 9-4 n ) 에서 제 거된다. 여 기서 두개 의 통신경 로를 제 공하기 위하여 
고속망이 보충된다. 

그림 9-4 L ) 와 그람 9.4 이의 클라스터에서 한마디가 고장나면 마디의 응용들모두 
가 고장날뿐아니 라 마디 가 수리 될 때 까지 마디 의 모든 자료는 사용될수 없 다. 


rn m m rn 

▲ 1 1_ 모선 

os 가 상주하는 
공유기 억 기 



t_) 작업기들의 를라스터 



C) 2중망률라스터 5) 디스크공유를라스터 
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그림 9-4. SMP 와 3개의 클라스터의 단일고장점들 


























예정정지시간을 무시할 때 클라스터의 유용성은 얼마인가? 

클라스터가 주당 1시간의 정비를 요구할 때 유용성은 얼마인가? 
한번에 한마디씩 주당 1시간의 정비가 필요하다면 유용성은 얼마인가? 


그림 9-4 근)의 공유디스크클라스터는 한가지 구제수단을 제공한다. 체계는 지속적 
인 자료를 공유디 스크에 기 억할수 있 으며 검 사점 응용들은 중간결 과들을 디 스크에 보존할 
수 있다. 따라서 하나의 마디가 고장날 때 자료는 잃어 지지 않는다. 

실례 9.3. 콤퓨터들의 들라스터의 유용성 

그림 9-4 근)의 클라스터를 고찰하자. 

하나의 마디만이 고장날수 있다고 가정하자. 체계의 나머지(실례로 호상접속과 공유 
RAID 디 스크) 는 100% 리용가능하다. 또한 한 마디 가 고장날 때 그것 의 작업 부하는 다른 
마디로 0시 간에 절환된다. 


해답: 

(1) 표 9-2 로부터 워크스테 이션은 99%의 시 간동안 러 용가능하다. 두개의 마디 가 정지 
되는 시간은 0.01 x 0.01 = 0.0001 또는 0.01%이다. 그러므로 유용성은 99.99%이다. 
따라서 클라스터는 해마다 단지 1시간의 정지시간을 가지는 고장회복체계이다. 

(2) 예정된 정지시간은 한해에 52시간 즉 沈/ (365 X 24)=0.0059 이다. 따라서 전체 정지 
시 간은 0.59%+ 0.01%=0.6% 이 다. 클라스터의 유용성 은 99.4%로 된다. 

(3) 다른 마디는 고장나고 한 마디는 정비되고 있는것과 같은 가망 없는 정황을 무 
시한다고 하자. 그러면 유용성은 99.99%로서 (1) 에서와 같다. 

9. 2. 2. 유용성기술 

식 (9.1) 로부터 체계의 유용성을 높이는데는 기본적으로 2가지 방법 즉 MTTF 를 늘 
이 는것 과 MTTR 를 줄이 는것 이 있 다. 결국 MTTF 의 증가는 체 계 유용성 의 증가로 된 다. 

를퓨터공업은 믿음직한 체계를 만들기 위하여 노력하여 왔다. 오늘의 워크스테이션 
들은 수백~수천시간의 범위에서 MTTF 를 가지고 있다. 그러나 MTTF 를 더욱 개선하는것 
은 매우 힘들며 비용이 많이 든다. 

클라스터들은 체 계의 MTTR 를 줄이는데 기 초한 높은 유용성해결책 을 제공한다. 다 
중마디클라스터는 워크스테 이 션보다 더 낮은 MTTF (따라서 더 낮은 믿음성)를 가지며 고 
장이 더 자주 일 어 난다. 그러 나 고장들은 더 높은 유용성 을 달성 하기 위하여 빨리 회 복 
된다. 클라스터 에서의 여 러 가지 유용성기 술들을 아래 에서 론의한다. 

분리된 여유 

임의의 체계에서 유용성을 높이는 주요한 기술은 여유구성요소들을 사용하는것이다. 
하나의 구성 요소(기 본구성 요소)가 고장나면 그것 이 제 공하던 봉사는 다른 구성 요소(복제 
구성요소)가 이어 받는다. 더우기 기본 및 복제구성요소들이 호상 분리된다면 그것들은 
같은 고장원인의 영향을 받지 않는다. 
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클라스터들은 전원공급과 선풍기，처리기，기억기, 디스크， I / O 장치，망，조작체계형태 
등에서 여유를 가지는 높은 유용성을 제공한다. 주의 깊게 설계된 클라스터에서 여유는 
역시 분리된다. 

분리된 여유는 여 러가지 우점을 준다. 

첫째로，분리된 여유를 가지고 설계된 구성요소는 단일고장점이 아니며 구성요소의 
고장은 전체 체계의 고장을 일으키지 않는다. 

둘째로，고장난 구성요소는 체계의 나머지가 여전히 동작하는 상태에서 수리될수 있다. 

셋째로，기본 및 복제구성요소들은 호상 검사할수 있으며 호상 결함을 찾을수 있다. 

IMB SP 2 의 통신부분체 계 는 여 유분리설계 의 좋은 실례 이 다. 모든 마디 들은 2개의 
망 즉 이써네 트와 고성능교환기 ( HPS ) 로 접 속된다. 매 마디 는 이 망들에 접 속하기 위 한 2 
개 의 분리 된 대 면부기판을 사용한다. 2개 의 통신규약 즉 표준 IP 와 사용자공간 ( US ) 규약 
이 있으며 매 규약은 각각의 망에서 실행할수 있다. 망이 나 규약이 고장나면 다른 망이 
나 규약이 이어 받을수 있다. 

실 례 9.4. 쏘프트웨어 의 믿 음성 을 높이 는 N 판본프로그람작성 

사명 이 중요한 쏘프트웨 어체 계 를 구성하는데서 공통적 인 여 유분려방법 을 N 판본프로 
그람작성 ( NVP ) 이 라고 부론다. 쏘프트웨어 는 다른것 들이 있 다는것 조차도 모르는 자개 의 
분리된 림들에 의해 실현된다. 서로 다른 림들은 서로 다른 알고리듬，프로그람작성언어， 
환경 도구 지 어 서 로 다른 가동환경 을 사용하여 쏘프트웨어 를 실 현하게 한다. 

고장허용체계에서 자개의 판본들은 모두 동시에 실행되며 그 결과들은 언제나 비교 
된다. 결과들이 다르면 체계는 고장이 생겼다는것을 알게 된다. 그러나 분리된 여유로 하 
여 그 고장이 N 개 판본들 대부분이 동시에 고장나도록 하는 일은 거의나 일어 나지 않는 
다. 그리하여 체계는 대부분의 판본들의 투표로 생성된 정확한 결과를 가지고 작업을 계 
속한다. 

널 러 러 용되는 사명 이 덜 중요한 체 계 에서 는 한번에 하나의 판본만을 실행해 야 한다. 
매 판본은 내장된 자체검사능력을 가진다. 한 판본이 고장나면 다른 판본이 이 어 받을수 
있 다. 

실례 9.5. IBM HACMP 에서 단일고장의 제거 
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그림 9-5. IBM HACMP 에 서 모든 단일 고장점 을 제 거 하기 위한 
클라스터자원들이 복제 


















IBM HACMP ( high-availability cluster multiprocessing ) 체계의 설계는 그림 9 - 5 에서 보 
여 주는바와 같이 모든 단일 고장점 들을 조심 스럽 게 제 거한다. 

전통적인 의뢰기-봉사기구성은 그림 9-5 丁)에서 보여 준다. 여기서 여러 의뢰기들 
( n ) 은 봉사기마디 가 이써네 트와 같은 LAN 을 통하여 제 공하는 봉사에 접근한다. 봉사기 
마디는 SCSI 모선을 통하여 외부의 디스크에 접속된다. 이 전통적인 체계는 5개의 가능한 
단일고장점을 가진다. 


(1) LAN 망 

(2) 봉사기마디의 LAN 적응기(굵은 선으로 보여 준다.) 

(3) 봉사기자체 

(4) SCSI 모선 

(5) 외부디스크 

그림 9-5 L ) 의 높은 유용성체계는 여분설계를 사용하여 모든 단일고장점들을 제거 
한다. 여분은 우에서 렬거한 5개의 체계자원들 모두에 대한 복제로부터 생긴다. 즉 2개의 
LAN , 두개 의 봉사기 마디，봉사기 마디 당 두개 의 LAN 적 응기 기 판，2조의 SCSI 모선, 2개 의 
디스크렬이 사용된다. 

이것은 높은 유용성을 달성하는데 대 단히 값이 비싼 방법 이지만 IBM HACMP 는 고 
객의 요구에 따라 이 방법을 받아 들이였다. 

여 분의 구성 요소들은 서 로 다른 가격 과 유용성，성 능요구에 따라 서 로 다른 방법으 
로 구성될수 있다. 다음의 3가지 구성이 자주 사용된다. 

• 활성대 기 기 본구성 요소는 봉사를 제 공한다. 한편 여 분의 복제구성 요소는 어 떤 
작업 도 하지 않고 대 기하다가 기 본구성 요소가 고장나자마자 이 어 받기 위하여 
준비되 여 있다. 보다 경제 적 인 설계 는 여 러 기 본구성요소들을 복제하는데 하나 
의 대기구성요소를 사용한다. 복제구성요소는 아무것도 하지 않기때문에 고장난 
기본구성요소를 빨리 이 어 받을수 있다. 

• 호상 이 어 받기 모든 구성 요소들은 모두가 실제 로 유효한 작업 부하를 수행하는 
기 본구성 요소이 다. 하나가 고장나면 그것 의 작업 부하는 다른 구성 요소들에 재분 
배 된다. 이 방법 은 정 상적 으로 휴식하는 구성 요소들이 없기때 문에 비 용이 효률 
적 이 다. 그러 나 이 어받기 는 더 많은 시 간을 소비한다. 

• 고장허용 이것은 이미 실례 9.4 의 NVP 에서 언급되였다. 이것은 N 개의 구성요소 
들이 N 배 더 많은 가격으로 한 구성요소의 성능만을 주기때문에 가장 비싼 형태 
이 다. 그러 나 N -1 개 구성요소들의 고장은 감춰 진다(사용자에게 보이지 않는다.). 

• failover 이것은 상업응용들을 위 한 현재의 클라스터들에서 요구되는 가장 중요 
한 특징이다. 하나의 구성요소가 고장날 때 이 기술은 나머지체계가 원래 고장 
난 구성요소가 제공하던 봉사를 이 어 받도록 한다. failover 기구는 고장진단，고 
장통지, 고장회복과 같은 여러 기능들을 제공해야 한다. 
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고장진단은 고장의 발견과 고장을 일으킨 고장난 구성요소의 위치에 귀착된다. 대중 
적으로 사용되는 기술은 심장박자 ( heartbeat ) 인데 클라스터마디들은 심장박자통보문의 흐 
름을 다른 마디로 내보낸다. 만일 체계가 마디로부터 심장박자통보문의 흐름을 받지 못 
하면 그것은 마디나 망의 접속이 고장났다고 결론할수 있다. 

실례 9.6. 2개 망들라스터 에서 고장진단과 회 복 

클라스터는 클라스터의 마디들을 접속하는 2개의 망을 가진다. 

하나의 마디가 주마디로 지적된다. 매 마디는 두 망을 통하여 주마디에 주기적으로 
(매 10 s 마다) 심 장박자통보문을 보내 는 심 장박자데몬을 가진다. 주마디 는 한박자 (10 s ) 동 
안 마디로부터 통보문들을 받지 못하면 고장을 발견하고 다음의 진단을 내린다. 

• 만일 주마디가 한마디로부터 하나의 망을 통하여 심장박자를 받고 다른 마디 로 
부터 받지 못하면 두 망중의 한 망에 대 한 그 마디의 접속이 고장났다. 

• 만일 주마디 가 두망을 통하여 심장박자를 받지 못한다면 그 마디 가 고장났다. 
두 망이 동시 에 고장나는 경 우는 무시해 도 된 다고 본다. 

이 실례 에서 고장진단은 간단하지 만 여 러개의 함정 이 있다. 

주마디가 고장나면 어떻게 되겠는가? 

10 s 라는 심장박자는 너무 긴가 아니면 너무 짧은가? 

심장박자통보문이 망에서 잃어 지면(실례로 망혼잡으로 인하여) 어떻게 되겠는가? 

이 방법이 수백개의 마디들을 수용할수 있겠는가? 

실계적 인 높은 유용체 계 들은 이 문제 들을 처 리 해 야 한다. 

대중적 인 방법은 부하정보를 나로는 심장박자통보문을 사용하여 주마디가 마디 로부 
터 심 장박자를 받으면 주마디 는 그 마디 가 살아 있 다는것 뿐아니 라 그 마디 의 자원 려용상 
태까지도 알게 하는것 이 다. 그러한 부하정 보는 부하평형 이 나 일감관리 에도 유용하다. 

일단 고장이 진단되면 체계는 구성요소들에 고장사건을 알도록 통지한다. 

고장통지 는 주마디 가 이 정 보를 가져 야 할 유일 한 마디 가 아니 기때 문에 필 요하다. 
자원관리자는 작업 부하를 재 배 정 하고 그 마디 의 남은 작업 부하를 이 어 받도록 요구한다. 
체 계관리 자는 그 마디 를 수리하는데 적 당한 동작들을 초기 화할수 있도록 경 보를 보낼것 
을 요구한다. 

실례 로 한 마디 가 고장난 경 우에 령 역 이 름봉사기 ( DNS ) 는 자기 가 더 많은 사용자들 
을 그 마디 에 접속하지 않도록 알려 줄것을 요구한다. 

회복방법 

고장회복은 고장난 구성요소의 작업부하를 이 어 받는데 필요한 동작들에 귀착된다. 

2가지 형 태의 회 복기술이 있다. 

뒤방향회 복에 서는 클라스터 에 서 실 행하는 프로쎄 스들이 하나의 모순이 없는 상태 (검 
사점이라고 한다.)를 안전한 기억에 주기적으로 보존한다. 고장후 체계는 고장난 구성요 
소를 분러시 키기 위해 재구성되 며 이전의 검사점 을 복귀시키 고 정 상동작을 다시 시 작한 
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전체 체계가 닫겨 지며 전원이 차단된다. 

고장마디 가 하드웨 어 마디 이 면 고장마디 는 교체 된 다. 
체계에 전원이 공급되고 다시 초기적재된다. 

사용자의 응용이 재적재되고 처음부터 다시 실행된다. 


클라스터의 마디들중 하나가 100시 간마다 실패 한다고 하자. 클라스터의 다른 부분들 
은 절대 로 고장나지 않는다. 걸음 1~3은 다해 서 2시 간 걸린다. 걸음 4에 대 한 평 균시간은 
2시 간이 다. 콜라스터 의 유용성 은 얼마인가? 매 1시 간의 정지시 간이 82500$(실례 9.1) 를 
잃게 한다면 년간 고장비용은 얼마인가? 

답: 

클라스터의 MTTF 는 100시 간이고 MTTR 는 2+2=4시 간이 다. 

식 (9.1) 로부터 유용성 은 100/104=96.15%이 다. 이 것은 한해 에 337시 간의 정지시 간에 
대응되며 고장비용은 82500 X 337$ 즉 27 M $ 이상이 다. 

실례 9.8. 콤퓨터들의 클라스터에 대한 유용성 및 비용해석 

실 례 9.7 을 반복하는데 클라스터 가 많이 증가된 유용성 지원을 가진다고 하자. 마디 가 
고장나면 그것의 작업부하는 자동적으로 다른 마디들로 이 어 진다. 고장여유시 간은 6분 
뿐이 다. 그동안 클라스터 는 작업중교체 (hot swap ) 능력 을 가진다. 즉 고장마디 는 클라스터 
에서 떨어 져 수리되며 다시 련결되고 다시 초기적재되여 클라스터에 다시 결합된다. 이 
리상적인 클라스터의 유용성은 얼마이며 년간 고장비용은 얼마인가? 

답: 

클라스터의 MTTF 는 여전히 100시간이지만 MTTR 는 클라스터 가 고장난 마디가 수리 
되 고 있는 동안에 도 리용가능하므로 0.1 시 간으로 낮아 진다. 

식 (9.1) 로부터 유용성 은 100/100.5=99.9%이 다. 이것은 해 마다 8.75 시 간의 정지 시 간에 
대 응하며 고장 비 용은 82500 X 8.75=722000$ 로서 실 례 9.7 의 설 계 에 서 의 고장 비 용 보 다 


다. 이것을 복구라고 부론다. 

뒤방향회복은 상대적으로 응용독립의 이식가능한 형태로 실현하기 쉬우며 널리 사 
용되였다. 그러나 복구는 쓸데 없는 실행을 포함한다. 복구시간을 허용할수 없는 실시간 
체 계 에서 와 같이 실행 시 간이 극히 중대하면 앞방향회 복방법 이 사용되 여 야 한다. 

이 방법에서는 고장날 때 체계가 이전의 검사점으로 복구되지 않는다. 대신에 체계 
는 타당한 체 계 상태 를 재 구성 하기 위한 고장진단정 보를 러용하여 실행 을 계속한다. 앞방 
향회 복은 응용의 존적 이 며 여 분의 하드웨 어 를 요구한다. 

실례 9.7. MTTF 와 MTTR , 고장비 용의 해석 

유용성지원이 거의 없는 클라스터 를 생 각하자. 마디 가 고장날 때 다음과 갈은 사건 
들이 순차로 일어 난다. 
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27 M /772 K =38 배 작다. 


9. 2. 3. 검사점설정과 고장회복 

클라스터체 계의 유용성 을 높이 기 위하여 개 발해 야 할 2가지 기 술이 있다. 

검 사점설정 의 기 본개 념 으로부터 시 작하자. 

기본개념 

검사점설정은 실행하는 프로그람의 상태를 안전한 기억에 주기적으로 보존하는 프 
로쎄스 ( process ) 이 다. 이것을 러 용하여 체 계는 고장이 일 어 난후 회 복할수 있다. 

보존된 매 개 프로그람상태를 검사점 이 라고 한다. 

보존된 상태 를 포함하는 디 스크파일 을 검 사점파일 이라고 부른다. 

현재 의 검사점 설정 쏘프트웨 어는 프로그람의 상태를 디스크에 모두 보존하지만 성 능 
을 높이 기 위하여 안정 기억 (stable storage ) 대 신에 마디의 기 억기들을 사용하기 위한 연구 
가 진행 중에 있다 [33]. 검 사점설정기 술들은 유용성 뿐아니 라 프로그람의 오유수정 과 프로 
쎄스의 이동，부하평형에도 쓸모가 있다. 

많은 일감관리 체 계 들과 일부 조작체 계틀은 일정한 정 도로 검 사점설정 을 지 원한다. 
Wed 자원은 Condor 와 libckpt 와 같은 일부 공개 령 역 쏘프트웨 어 를 포함하는 다수의 검 사점 
관련 Web 싸이트들에 대 한 지 시 자들을 포함한다. 

이 부분에 서 는 검 사점 쏘프트웨어 의 설 계 자와 사용자에 게 중요한 문제 들을 론의 한다. 

핵심부와 서고，응용의 수준들 

검 사점 은 조작체 계 에 의 하여 핵 심 부수준에 서 실 현될 수 있 다. 여 기 서 OS 는 투명 하게 
검사점을 찾으며 프로쎄스들을 다시 시작한다. 이것은 사용자들에게 있어서 러상적이다. 
그러 나 검 사점 설정 은 대부분의 조작체 계 들 특히 병 렬프로그람들에 서 지 원되 지 않는다. 

보다 덜 투명한 방법은 사용자코드를 사용자공간에서 검사점설정서고와 련결한다. 
검사점설정과 사용자응용들은 수정되지 않아도 된다는 우점을 가지므로 널리 사용된다. 
기본문제는 대부분의 현존 검사점설정서고들이 정적이라는것 즉 응용의 원천코드(또는 
적어도 목적코드)가 리용가능해야 한다는것이다. 그것은 응용이 실행가능한 코드의 형식 
이면 동작하지 않는다. 

세번째 방법은 사용자(또는 콤파일러)가 검사점기능들을 응용에 삽입할것을 요구한 
다. 따라서 응용은 수정되 여 야 하며 투명성 이 상실된다. 그러 나 그것은 사용자가 검사점 
을 만드는 위치를 특정 화할수 있 다는 우점 을 가진 다. 이것은 검사점 설정의 부가처리를 줄 
이 는데 쓸모 있 다. 

검사점설정은 시간과 기억의 부가처리를 초래한다. 이 부가처리들은 아래에서 정의된다. 

검사점부가처리 

프로그람이 실행되는 동안 그것의 상태는 여러번 보존된다. 한개의 검사점을 보존하 
는데 소비된 시간을。로 표시하자. 기억기의 부가처리는 검사점설정에 필요한 여분의 
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기억기 및 디스크공간이다. 시간 및 기억의 부가처리는 검사점파일의 크기에 의존한다. 
이 부가처리들은 특히 큰 기억기공간을 요구하는 응용들에서 실계로 존재할수 있다. 이 
부가처리를 줄이기 위한 여 러가지 기술들이 제 안되였다. 


최적검사점간격의 선택 

2개 의 검 사점사이 의 시 간구간을 검 사점간격 이라고 한다. 이 간격 을 더 크게 함으로 
써 검사점의 시간부가처리를 줄일수 있다. 그러나 이것은 고장후에 더 긴 재계산시간을 
포함 한다. 

Wong 과 Franklin [648] 은 리 론적 인 모형 에 기 초하여 최 적 검사점 간격 을 주는 다음과 같 
은 식을 유도하였다. 


최 적 검 사점 간격 = 、 I(MTTF . t c )/h 

여 기서 MTTF 는 체계 가 고장나는 평균시간이 고 、는 하나의 검사점을 보존하는데 
소비된 시 간이며 ft 는 체계 가 고장나기전에 한개의 검사점간격사이 에 수행한 표준계산의 
평 균률 이 다. 

파라메터 h 는 항상 0<사<의 범위 에 있다. 

체계 가 원상회복된후에 재계산에 A X (검사점간격)시간이 걸린다. 이 시간파라메터들 
은 그림 9-6 에서 설명된다. 


Ckpt/ 고장 Ckpt/+1 



—— h - - M 

세 ► 


4 검사섬 간적 ’ 



그림 9-6. 2 개 의 검 사점 사이 의 시 간파라메 터 들 


중분검 사점 

증분검 사점 방법 [503, 504, 505] 은 매 개 검 사점 에 충분한 상태 를 보존하지 않고 이 전 
의 검 사점 으로부터 변화된 상태 부분만을 보존한다. 그러 나 이 전의 검 사점파일 들을 관심 
해 야 한다. 

완전상태 검사점 설정에서 는 디스크에 하나의 검사점과일만이 보존될것을 요구한다. 
다음의 검사점들은 단순히 이 파일에 덧 씌여 진다. 

중분검사점설정에서는 완전한 상태가 여러개의 파일들에 퍼져 있으므로 이전의 파일 
들이 보존될것을 요구한다. 그러므로 전체적인 기억요구가 더 크다. 


포크식검사점설정 

대 부분의 검 사점 설 정 방법 들은 검 사점 설 정 이 진행 되 는 동안 일 반계 산이 차단(정 지 ) 되 
는 차단식이다. 충분한 기억기공간이 있으면 검사점부가처리는 기억기에 프로그람의 상 
태 를 복사하고 일 반계산과 함께 검 사점 설정 을 동시 에 수행하는 또 다른 비 동기 스레드를 
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포함함으로써 감소될수 있다. 

계 산과 검사점설정 을 겹치게 하는 간단한 방법 은 Unix 의 fork () 체 계호출을 사용하는 
것 이 다. 

포크식 자손프로쎄스는 부모프로쎄 스의 주소공간을 복사하고 거 기서 검 사점 으로 만든 
다. 한편 부모프로쎄스는 실행을 계속한다. 겹치기는 검사점설정이 디스크 I / O 집약적이 
기 때문에 달성될 수 있 다. 그이 상의 최 량화는 copy - on - write 기구 [415] 를 사용하는것 이 다. 


검사점의 압축 

또 다른 착상은 표준적 인 압축알고리 듬들을 리용하여 매 검 사점 을 압축하는것 이 다. 
그러 나 압축은 압축의 부가처 리 가 작고 검 사점 이 크게 줄어 들수 있을 때 만 진행한다. 압 
축은 단일처 러기 에는 비효률적 이고 디스크경쟁 을 가지는 병 렬체계들에서 효률적 이 라는것 
을 보여 주는 일부 증거들이 있다. [505] 


사용자지시검사점설정 

검사점의 부가처리는 때때로 사용자가 언제 보존하고 무엇을 보존하며 무엇을 보존 
하지 않는가 하는것을 체계에 알려는 코드들(실례로 서고나 체계호출)을 삽입하면 실제 
적으로 감소될수 있다. 사용자지시검사화에 대한 개괄은 [503] 을 참고할것 . 

무엇을 검사점으로 

검사점의 정 확한 내용은 무엇 이겠는가? 

그것은 바로 체계를 회복하는데 충분한 정보를 포함한다. 2.2 에서 론의한것과 같이 
프로쎄스의 상태에는 그것의 자료상태와 조종상태가 포함된다. 

Unix 의 프로쎄스에 대 하여 이 상태들은 본문(코드)과 자료，탄창토막들，프로쎄스의 
서술자를 포함하는 주소공간에 기억된다. 충분한 상태를 보존하고 되살리는것은 비용이 
많이 들며 때때로 불가능하다. 그것들은 또한 종종 불필요하다. 실례로 많은 응용들에서 
프로쎄스의 正)와 부모프로쎄스의 正)는 회복가능하지 않으며 대부분의 검사점설정체계들 
의 부분적 인 상태 를 보존한다. 실례 로 코드토막은 대 부분의 응용들에 서 변하지 않기때 
문에 보통 보존되지 않는다. 

일반성 

어떤 종류의 응용들에 대하여 검사점을 만들수 있는가? 

현존 검사점설정방법들은 프로그람들이 잘 동작할것을 요구한다. 그 정확한 의미는 
서로 다른 방법들에서 서로 다르다. 

최소한 잘 트랜잭션된 프로그람은 프로쎄스 正》의 수값과 같은 회복할수 없는 상태정 
보의 정확한 내용을 요구하지 말아야 한다. 

Condor 묶음 [608] 은 자손프로쎄스들을 창조하지 않고 신호와 관흐름， sockets , 파일들 
과 같은 Unix 의 마디호상간의 통신 방법 들을 사용하는 다른 프로쎄 스들과 통신하지 않는 
그러한 프로그람들에 대 해서만 검사점 을 만들수 있다. 

Libokpt 의 검 사점 서고 [503] 는 열린 파일 들의 표만을 보존하고 다른 체 계 상태 정보는 


보존하지 않는다. 

임의의 검사점설정쏘프트웨어를 사용할 때 중요한것은 어떤 프로그람들이 잘 동작하 
는가 하는것 이 다. 왜 냐하면 서틀게 동작하는 프로그람은 정 확히 검사점 이 만들어 지지 
않기 때문이다. 

편리성 

검 사점 설정 쏘프트웨 어 를 사용하는것 이 얼 마나 쉬 운가? 

러 상적 으로 검사점 설정 기능은 조작체 계 에 통합되 여 야 사용자의 응용들이 자동적 으로 
투명하게 보존되고 복구될수 있다. 그러나 대부분의 현존 조작체계들은 검사점설정을 잘 
지원하지 않는다. 

다음으로 가장 좋은 방법은 사용자가 실행하는 응용과 련결할수 있는 실시간서고를 
지원하는것 이 다. 그러 나 서 고가 동적 이든 정적 이든 사용자에 따라 큰 차이를 가질수 있다. 

Condor 의 이전 판본들에서 사용자들은 정적검사점서고와 목적코드를 련결해 야 한다. 
이것은 응용이 3부류의 실행가능코드이면 불가능하다. 

Condor 의 판본 6에서 는 Sun Solaris 에서 이 제 한을 없애 기 위 하여 동적 련결서 고가 제 
공된 다. 

우의 방법들은 사용자가 자기의 코드로 수정하지 않아도 되기때문에 투명한 검사점 
설정이라고 부론다. 

다른 방법 들은 두명 하지 않다. 

가장 간단한것은 Libckpt 서고에서 설명되는데 이것은 사용자가 원천코드의 한행 
을 변화시 킬 것 을 즉 main () 함수를 ckpt - target () 로 바끌것 을 요구한다. 투명 하지 않은 
다른 방법들은 사용자들이 원천코드에 검사점지령들을 삽입할것을 요구한다. 이것은 사 
용자에 게 는 불편하지 만 이 불편성 은 사용자지 시 점 화의 진보에 반비 례하여 증대된다. 


검사점설정병렬프로그람 

이제 는 검사점설정병 렬프로그람들을 보자. 

병 렬프로그람의 상태는 보통 순차프로그람의 상태보다 더 크다. 왜 냐하면 그것 이 개 
별적인 프로쎄스들의 상태의 모임과 통신망의 상태로 구성되기때문이다. 병행은 또한 여 
러가지 시 간 및 일 치 성 문제 들을 끌어 들인 다. 

실례 9.9. 병렬프로그람의 검사점설정 

3개 프로쎄 스병 렬프로그람의 검 사점 설정 을 그림 9-7 에 서 설명한다. 


、、: 
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그림 9-7. 병렬프로그람의 일치성 및 불일치성검사점들 


443 






화살 x , y , z 는 프로쎄 스들사이 의 점대점통신을 표시한다. 3개의 굵은 선 a , b , c 는 3개 
의 대역 snapshot (또는 간단히 snapshot ) 를 표시한다. 여기 서 하나의 대역 snapshot 는 매 프 
로쎄스로부터 1개씩 취한 검사점(점으로 표시됨)들의 모임 이다. 

그밖에 일부 통신상태 가 보존되 여 야 한다. snapshot 시 간선사이 의 부분들은 프로쎄 스 
가 어디에 (국부)검사점을 가져야 하는가를 가리킨다. 그러므로 프로그람의 snapshot c 는 
3개 의 국부검 사점 들 즉 프로쎄스 P , 公 에 대 하여 각각 s , t , m 와 통신 y 의 복사로 이 루 
어 진다. 

일치 성 snapshot 

다른 프로쎄스의 검사점은 계속 보내고 한 프로쎄스의 검사점은 받아 들이는 통보문 
이 없을 때 대역 snapshot 는 일치한다고 한다. 그라프적으로 이것은 화살이 오른쪽에서 
왼쪽으로 snapshot 선과 교차하지 않는다는것과 동등한다. 

이 정의 에 의하여 snapshot a 는 화살 표가 왼쪽에서 오른쪽으로 향하기때문에 일치한 
다. 그러 나 snapshot c 는 모가 오른쪽으로부터 왼쪽으로 가므로 불일 치 이 다. 

Netzer 와 Xu [461] 는 모든 검사점들이 주어 졌을 때 2개의 검사점이 하나의 일치성 
snapshot 에 속하기 위 한 필 요충분조건을 증명 하였 다. 조건은 이 2개 의 검 사점 사이 에 어 떤 
Z 자모양의 경 로도 없 어 야 한다는것 이 다. 실 례 로 검 사점 u 와 s 는 하나의 일 치 성 대 역 
snapshot 에 속할수 없다. 

일치성 snapshot 에 대한 더 강한 정의는 화살들이 snapshot 를 교차하지 않을것을 요구 
한다. 이 정의 에 의하여 그림 9-7 에서는 snapshot b 만이 일치 한다. 

동등검사점 대 독립검사점 

병렬프로그람에 대한 검사점설정방법들은 2가지 형태로 분류할수 있다. 

동등검사점설정 (일치성검사점 설정 이 라고도 한다.)에서 병 렬프로그람은 동결되고 모 
든 프로쎄스들은 동시에 검사점이 만들어 진다. 한가지 실례는 CoCheck [608] 이다. 

독립검사점설정 에 서 프로쎄 스들은 호상 독립 적 으로 검사점 이 만들어 진다. 

이 두가지 형래들은 여러가지 방법으로 결합될수 있다. 

동등검 사점 설 정 은 실 현 하기 힘 들며 큰 부가처 리 를 일 으키 는 경 향이 있 다. 

독립검 사점설정 은 작은 부가처 리 를 가지 며 순차프로그람들에 대 한 현존 검사점 설정 
방법들을 리용할수 있다. 그러 나 그것은 도미노효과문제를 풀어 야 한다. 



그림 9-8. 검사점들의 렬에서 i 미노효과의 설명 


도미노효과 

그림 9-8 을 고찰하자. 





체계가 고장나서 프로쎄스 P 를 그것의 국부검사점 e 로 복구한다고 하자. 이것은 통 
신 z 에 의 하여 프로쎄스 0로부터 다시 통보문을 보내올것을 요구한다. 이를 위해 e 는 
검사점 산로 복구되 여 야 한다. 이 때 e 는 통신 : y 에 의 해 프로쎄 스 p 로부터 보내오는 통보 
문을 요구한다. 그러하여 P 는 c 에 로 복구될 것 을 요구한다. 결 국 P 와 6는 다 초기 상태 a 
와 로 복구될것을 요구하며 검사점설정을 쓸모 없게 만든다. 

도미노효과를 피하기 위하여 독립검사점설정은 통보문기록하기와 함께 확대된다. 착 
상은 검사점을 만드는 동안 개별적인 프로쎄스들이 자기의 국부검사점들을 독립적으로 
보존할뿐아니라 통보문들을 기록 ( log ) 에 보존시키는것이다. 

그림 9-8 에 서 대 역 snapshot 는 고장직전에 국부검 사점 들 e 와/, 그리 고 통신 z 에 대 한 
통보문기 록으로 구성 된다. 회 복될 때 프로쎄 스들은 자기 의 검 사점 들 e 와 /로 복구되 며 
통신 z 가 다시 진행된다. 

9.3. 단일체계영상에 대한 지원 

단일체계영상은 SMP 나 워크스테이션에서와 같이 기억기에 상주하고 있는 조작체계 
형 태의 단일한 복사를 의미하지 않는다. 오히 려 그것은 아래 에서 특징 짓는것과 같은 단 
일체계 의 환상을 의 미한다. 

• 단일체계 여러 처리기들을 가지는 전체 클라스터는 사용자들에게 하나의 체계로 
보인다. 사용자는《5개의 처리기를 러용하여 나의 응용을 실행하라.》고 말할수 
있다. 이것은 분산체계와 다르다. 

• 단일조종 론리적으로 말단사용자나 체계사용자는 단일한 대면부를 가지고 한 위 
치 에서 봉사를 리용한다. 실례 로 사용자는 묶음일감들을 대 기렬들중 하나로 계 
출하며 체계관리 자는 클라스터의 모든 하드웨 어 및 쏘프트웨 어구성요소들을 구 
성 한다. 

• 균형성 사용자는 임의의 마디로부터 클라스터의 봉사를 받아 사용할수 있다. 
다시 말하여 클라스터 의 모든 봉사들과 기 능들이 사용접 근규칙 에 의해 보호되 는 
것 들을 제 외 하고 모든 마디 와 모든 사용자들에 게 균형 적 이다. 

• 위 치투명성 사용자는 최종적 으로 봉사를 제공하는 물리장치들이 있는 곳을 모른 
다. 실례로 사용자는 임의의 클라스터의 마디에 련결된 레프장치를 마치도 물러 
적으로 국부마디에 련결되 여 있는것처 럼 사용할수 있다. 그러 나 일부 성능상 차 
이는 있을수 있다. 

9. 3. 1 ■ 단일체계영상의 층 

ssi 를 가지게 되는 기본적 인 동기는 그것 이 잘 알려 진 워크스테 이션과 같이 사용되 
고 조종되며 관리된다는것이다. 단일체계영상에서 단어 단일은 때때로 대역 또는 집중과 
같은 뜻으로 불리운다. 실례로 대역파일체계는 사용자가 임의의 마디로부터 접근할수 있 
는 단일한 파일계층을 의미한다. 
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단일조종점은 한 운영자가 클라스터체계를 감시하고 구성하게 한다. 

단일체계의 환상은 있지만 클라스터의 봉사나 기능은 흔히 분산적으로 여러 구성요 
소들의 협조를 통하여 실현된다. 

SSI 기술의 기본요구(우월성)는 그것이 분산실현의 성능상 우점과 단일형태의 유용성 
의 우점 들을 다 제 공한다는것 이 다. 


정의 9.2. 프로쎄스 P 의 관점에서 클라스터의 마디들은 3가지 형태로 분류될수 있다. 
프로쎄 스 P 의 원 천 ( home ) 마디 는 프로쎄 스 P 가 창조될 때 상주하는 마디 이 다. 프로쎄 스 
p 의 국부마디 는 p 가 현재 상주하고 있는 마디 이 다. 다른 모든 마디 들은 P 에 원격마디 로 
된 다. 


정 의 9.3. 클라스터 의 마디 들은 서 로 다른 요구에 맞게 구성 될 수 있다. 호스트마 
디 는 telnet 와 원격 접 속(또는 ftp 와 http ) 을 통하여 사용자접 속 ( login ) 을 봉사한다. 콤퓨 
터마디 는 계 산일 감들을 수행하는 마디 이 다. I/O 마디 는 파일 I/O 요구들에 봉사하는 마디 
이다. 클라스터가 큰 공유디스크나 레프단들을 가지면 그것들은 보통 I/O 마디에 물리 
적으로 련결된다. 

매 프로쎄스에 대하여 하나의 원천마디가 있으며 이것은 프로쎄스가 살아 있는 전 
기간에 걸쳐 고정된다. 임의의 시각에 호스트마디이거나 아닌 오직 하나의 국부마디만이 
있 다. 프로쎄 스의 국부마디 와 원격마디 들은 프로쎄 스가 이 동하면 변한다. 마디 는 여 러 
기능을 제공하도록 구성될수 있다. 

실례로 마디는 동시에 호스트와 I/O 마디，를퓨터마디로 지명될수 있다. 

문헌은 혼합된 이름을 사용한다. 실례로 호스트는 때때로 임의의 마디형태를 참조 
하는데 사용된다. 즉 호스트는 마디와 같다. 호스트 또는 M ) 마디는 때때로 그것이 어떤 
봉사들을 제 공한다는것 을 가리 키 기 위하여 봉사기마디 라고 부론다. 

SSI 의 환상은 여 러 층으로 얻 어 지 는데 그것 들중 4개 를 아래 에 서 론의한다. 이 층들 
은서로 겹칠수 있다. 

• 웅용쏘프트웨어층 2개의 실례 는 Web browser 와 여 러 가지 병 렬자료기 지 이 다. 
사용자는 응용을 통하여 단일체 계영상을 보며 클라스터 를 사용하고 있다는것 은 
알지조차 못한다. 이 방법 은 클라스터를 위하여 워크스테 이 션이 나 SMP 의 응용 
들에 대 한 수정 을 요구한다. 

• 하드웨 어 또는 핵 심 부충 리 상적 으로 SSI 는 조작체 계 나 하드웨 어 에 의 해 제 공된 
다. 아쉽게도 이것은 아직까지 실현되지 못했다. 더우기 이질클라스터들에 파일 
체 계형 태를 제 공하는것은 극히 곤난하다. 대부분의 하드웨 어 구조들과 조작체 계 
들을 전용화하여서만 이 방법을 사용할수 있다. 

• 핵심부웃층 가장 생활력 있는 방법은 그림 9-2 와 같이 SSI 층을 핵심부의 바로 
우에 구성하는것 이 다. 이 방법 은 가동환경독립 이 고 응용의 수정 을 요구하지 않 
기때문에 전망이 있다. 많은 클라스트의 일감관리체계들은 이미 이 방법을 받아 
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들이 였다. 이 에 대하여서는 9.5 에서 론의 한다. 


9. 3. 2. 단일입력자료와 단일과일계층 

단일체 계영 상은 대 단히 풍부한 개 념 으로서 단일입 력 자료，단일파일계 층，단일 I / O 공 
간, 단일망화, 단일조종점，단일 일감관리 체 계, 단일기 억기 공간, 단일프로쎄 스공간 등으 
로 이루어 진다. 

단일 입력 자료 

단일 입 력 자료는 사용자들이 클라스터 가 접 속대 화 (login session ) 를 지 원하는 여 러 개 의 
물리 적 호스트를 가진 다고 해 도 하나의 가상호스트로서 클라스터 에 ( telnet 나 rlogin , http 를 
통하여)접 속할수 있게 한다. 

체 계는 부하평형 을 위하여 사용자의 접속 및 접속요청들을 서 로 다른 물리 적호스트 
들에 투명하게 분산시 킨 다. 

왜 수천개의 사용자대 화 ( session ) 를 봉사하는 클라스터 가 필요한가고 이 상하게 여 길수 
있 다. 그 대답은 콜라스터 들이 대 형 콤퓨터 들과 초고속콤퓨터 들을 대 신할수 있 다는것 이 다. 
또한 인터네 트콜라스터봉사기 에서 는 수천개 의 http 또는 ftp 요청들이 동시 에 들어 올수도 
있 다. 

여 러 호스트들을 가지 는 단일입 력 자료를 구성하는것 은 사소한 문제 가 아니 다. 많은 
문제들이 해결되 여 야 한다. 

다음의것들이 바로 그 부분적인 목록이다. 

• 원천등록부 사용자의 원천등록부를 어디에 넣겠는가? 

• 인중 사용자의 접속을 어떻게 인증하겠는가? 

• 다중접속 갈은 사용자가 같은 사용자회 계 에 로의 여 러개의 대 화를 열면 어 떻게 
되는가? 

• 호스트고장 하나 또는 그이상의 호스트고장을 어 떻게 처 리하겠는가? 

단일입 력 자료를 실 현하는 간단한 방법 을 그림 9-9 에 서 설 명한다. 

클라스터의 4개 마디들이 사용자의 접속요청을 받아 들이는 호스트마디 로 사용된다. 하 
나의 사용자만 보여 주고 있지만 수천의 사용자들이 같은 형태로 클라스터에 접속할수 있다. 



그림 9-9. 부하평형식령 역이름봉사기를 사용하는 단일입 력 자료의 출현 
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사용자가 클라스터 에 접속하려 면 클라스터체계의 기 호적 이름을 사용하여 
《 telnet . cluster . cs . hku . hk 》와 같은 표준적 인 Unix 지 령 을 내 보내 야 한다. 

기 호적 이 름은 DNS 에 의해 변환되 여 부하가 가장 적 은 마디 의 표 5 주소 159.226.150 와 
함께 귀환된다. 이것은 마디 Hostl 에서 수행된다. 

그다음 사용자는 이 IP 주소를 사용하여 접 속한다. DNS 는 부하평 형트랜 잭 션결 정 을 
내 리기 위하여 호스트마디들로부터 주기적으로 부하정 보를 받는다. 

러상적 인 경우 200명의 사용자가 동시 에 접속하면 접속대화들이 호스트당 50사용자 
씩 4개의 호스트들에 평등하게 분배된다. 

실례 9.11. 원천등록부문제의 해답 

원천등록부문제에 대한 한가지 해답은 모든 사용자들의 원천등록부들을 클라스터의 
안정 기억 에서 유지 하는것 이 다(안정 기억의 개 념은 단일파일계 층에 대 하여 이 야기할 때 더 
론의 한다.). 

문제 는 원천등록부에 로의 접 근이 원격 동작이 여 서 비효률적 이 라는것 이 다. 

방도는 모든 호스트에서 매개 사용자의 원천등록부의 복사를 유지하는것이다. 그러 
나 이 해답은 2개의 주요부족점을 가진다. 

• 디 스크요구가 너 무 커 질수 있다. 클라스터 가 1000개 의 사용자계 정 을 지 원해 야 
하고 매 사용자는 20 MB 의 디스크몫을 가진다고 하자. 그러면 이제는 매 호스트 
의 국부디 스크가 적 어도 20 GB 의 용량을 가져 야 한다는것 을 의 미하는데 이 것은 
너무 크다. 

• 일치성을 유지 하자면 사용자가 접속을 끊을 때 가장 최근의 원천등록부는 모든 
호스트들에 방송되여야 한다. 

단일파일계층 

이 책에서는 단일 파일 계층 (single file hierarchy ) 이라는 술어를 국부 및 대역 디스크들 
과 다른 파일장치 들(실 례 로 레 프)을 투명하게 통합한 단일 하고 거 대 한 파일 체 계 형 태 를 
의 미하는것 으로 리해한다. 다시 말해 서 사용자가 요구하는 모든 파일들은 뿌리 등록부의 
어떤 부분등록부들에 기 억되며 open , read 등과 같은 보통의 Unix 호출을 통하여 접근될수 
있다는것이다. 여러 파일체계들이 뿌리등록부의 부분등록부들과 워크스테 이션에 존재 할 
수 있다는 사실과 혼돈하지 말아야 한다. 

단일 파일 계 층의 기 능들은 망파일 체 계 ( NFS )[52 刀와 안드레 이 파일 체 계 ( AFS )[453] 와 
같은 현존 분사파일 체 계 들에 의하여 이 미 부분적 으로 제 공되 였 다. 

임의의 프로쎄스의 관점에서 파일들은 그림 19.10 에서와 같이 클라스터의 3가지 형 
태의 위치에 상주할수 있다. 국부기억은 프로쎄스의 국부마디의 디스크이다. 

원격마디 의 디 스크들은 원격 기 억 이 다. 안정 기억은 다음과 같이 특징 지 어 진다. 

• 그것은 영구적 이다. 이것은 일단 안정기억에 씌 여 진 자료가 지 어 클라스터를 
닫은 후에도 적어도 일정한 시간동안(실례로 한주동안) 거기에 있어야 한다는것 
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을 의 미한다. 

그것은 여유와 레프에로의 주기적인 복제를 사용하여 어느 정도로 고장을 허용 
한다. 


론리적으로 집중식의 안정기억을 그림 9-10 에서 보여 준다. 안정기억의 파일들은 
대 역파일, 국부기 억의 파일들은 국부파일，원격기 억의 파일들은 원격파일 이라고 부론다. 
안정기억은 하나의 집중식의 큰 RAID 디스크로 실현될수 있다. 그러 나 그것은 콜라스터 
의 마디들의 국부디스크들을 사용하여 분산적으로 실현될수도 있다. 

첫번째 방법 은 하나의 큰 디 스크를 사용하는데 이것은 단일고장점 이 며 가능한 성능 
상의 목적으로 된다.뒤의 방법은 실현하기는 더 힘들지만 유력하게 더 경계적이고 더 
효률적 이 며 유용하다. 



그림 9-10. 단일파일계층에서 기 억의 3가지 형 래 


실례 9.12. Unix 클라스터의 단일파일계층 

많은 콜라스터와 자모체계들에서 체계가 단일파일계층의 다음의 등록부들을 사용자 
의 프로쎄 스들에 보이 게 하는것 이 전통적 이다. 

• /usr 와 /usr/locl 등과 같은 전통적 인 Unix 워크스테 이 션에서와 같은 보통의 체 계등 
록부들. 

• 작은 디스크몫 (1-20 MB ) 을 가지는 사용자의 원천등록부. 사용자는 자기의 코드파 
일 들과 다른 파일 들을 기 억한다. 그러 나 큰 자료파일 은 다른곳에 기 억 시 켜 야 한 
다. 

• 모든 사용자와 모든 프로쎄 스들에 공유되 는 대 역 등록부/ scratch (또는 /global 
scratch). 이 등록부는 여 러 기가바이트의 큰 디스크공간을 자진다. 사용은 자 
기의 큰 파일들을 여기에 기억할수 있다. 

• 클라스터 체계에서 프로쎄 스는 흔히 local scratch 로 표시 하는 국부디스크의 특별 
한 등록부에 접 근할수 있 다. 이 등록부는 중간용량(실 례 로 수백메 가바이 트)이 며 
global scratch 등록부보다 더 빨러 접근할수 있다. 

파일들에 대한 투명성 

여 기서 술어 투명 성 은 파일에 접 근하기 위 한 fopen, fread, fwrite 와 같은 전통적 인 
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Unix 체 계 및 서 고호출들을 사용할수 있 다는것 을 의 미한다. 

하나의 클라스터에 여러개의 국부 scratch 등록부들이 있다는데 주의해야 한다. 원격마 
더의 국부 scratch 등록부들은 단일파일계층에 없으며 프로쎄스에 직접 보이지 않는다. 

사용자의 프로쎄스는 마디의 이름과 파일이름을 다 명기함으로써 여전히 rep 와 같은 
지 령들 또는 일부 특수한 서 고함수들에 의해 그것들에 접근할수 있다. 

이름 scratch 는 그 기억이 림시정보기억에 대해서는 지워쓰기로서 동작한다는것을 가리 
킨다. 국부 scratch 의 정 보는 일 단 사용자가 접 속을 해 제하면 잃 어 진 다. 대 역 scratch 의 파일 들 
은 사용자가 접속을 해제한후에도 계속 유지되지만 사전에 결정된 시 간동안 접근되지 않 
으면 체계에 의해 지워 진다. 이것은 디스크 공간을 다른 사용자를 위하여 해방하는것이다. 
시간길이는 체계관리자가 설정하는데 보통 1일-여러주의 범위에 있을수 있다. 일부 체계들 
은 대역 scratch 를 주기적으로 또는 임의의 파일을 지우기전에 레프에 복제한다. 

요구되는 SSI 의 속성들 

단일파일계층은 SSI 속성들을 가져야 한다. 이것은 파일체계들에 대하여 다음과 같이 
되풀이된다. 

• 단일체계 사용자의 관점에서 바로 하나의 파일계층만이 있다. 

• 균형성 사용자는 클라스터의 봉사를 리용하여 임의의 마디로부터 대역기억(실례 
로 /scratch) 에 접 근할수 있 다. 다시 말하여 모든 파일 봉사들과 기능들은 접근규칙 
에 의해 보호되 는것 들을 제 외 하고 모든 마디 들과 모든 사용자들에 게 균형 적 이다. 

• 위 치 투명 성 사용자는 최 종적 으로 봉사를 제 공하는 물러장치 가 있는곳을 모른다. 
실례 로 사용자는 임 의의 클라스터마디 에 련결된 RAID 를 마치 도 그것 이 물리 적 
으로 국부마디에 련결된것처럼 사용할수 있다. 그러나 일부 성능상의 차이는 있 
을수 있다. 

하나의 파일연산은 ACID 속성 들(정 의 1.3) 을 만족하는 하나의 트랜잭 션이 다. 클라스 
터 파일 체 계 는 Unix 의 의 미 들을 유지 한다. 즉 모든 파일 연산 (fopen, fread, fclose 등)은 하나 
의 트랜잭 션이 다. fwrite 가 파일을 수정한후에 fread 가 같은 파일 에 접 근할 때 fread 는 갱 
신된 값을 얻게 된다. 그러 나 현재의 분산과일체계들은 Unix 의 의미를 완전히 따르지 않 
는다. 그것들중 일부는 close 또는 flush 때 에 만 파일을 갱 신한다. 

클라스터의 대역기억을 조직하기 위한 여러 방법들이 제기되였다. 

하나의 극단은 하나의 큰 RAID 를 호스트하는 단일한 파일봉사기를 사용하는것 이 다. 
이 방법은 간단해서 현존 쏘프트웨어(실례로 NFS) 로 쉽게 실현될수 있다. 그러나 파일봉 
사는 성능상의 병목 및 단일고장점으로 된다. 

다른 극단은 대역기억을 형성하는데 모든 마디들의 국부디스크를 리용하는것이다. 
이것은 단일파일봉사기의 성능 및 유용성문제 들을 해 결할수 있다. 그러 나 오늘 이 목적 
에 쉽 게 리용할수 있는 성 숙된 쏘프트웨어 는 없 다. 

단일파일계층의 실현 

대부분의 파일체 계 들에서 캐쉬는 성능을 개선하는데 널리 사용된다. 대중적 인 방법 
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은 의뢰기측캐쉬이다. 

파일연산을 내보내는 마디는 자주 사용되는 파일토막들을 캐쉬 에 요구한다. 그러 나 
캐쉬는 일관성(또는 일치성)문제 가 생 기게 한다. DSM 를 위하여 개 발한 캐쉬 일관성기술 
들이 여기에 사용될수 있다. 단일파일계층형태를 실현하는 여러가지 방법이 있다. 3 가지 
방법 들을 아래 에 제 기한다. 


(1) NFS(Network File System ) NFS 는 Sun Microsystems 에 서 개 발한 열 린 체 계 로서 
Unix 의 가동환경 들에 널 리 리용되 였 다. 원격마디 들에서 파일 체 계 들은 단일 계 층에 련결 
(설 치 )된 다. 프로쎄 스가 파일연산요청 을 내 보낼 때 NFS 는 그것 을 원격절 차호출 (remote 
procedure call, RPC) 로 변환하고 표준 TCMP 를 통하여 원격마디 로 보낸 다. 

파일연산은 원격마디에 의해 실행되며 그 결과는 RPC 에 의해 되돌려 진다. 이것은 
투명하게 진행 된다. 사용자는 국부파일 에 접 근하는것 만큼 쉽 게 원격파일 에 접 근할수 있 
다. NFS 의 기 본문제 는 약한 확장가능성 이 다. 

(2) AFS(Andrew File System ) AFS 는 파일체 계의 확장가능성을 높이는데 목적 을 두 
고 있다. 여기서는 큰 분산체계를 매개가 자체의 파일봉사기를 가지는 토막들의 계층으 
로 나눈다. 망통신흐름을 줄이 기 위하여 AFS 는 대 규목적 인 캐 쉬 화를 진행하며 NFS 의 상 
태 없는 규약대신에 상태 있는 규약을 받아 들인다. 

NFS 가 여러 대륙에 걸쳐 수천개의 마디들로 확장될수 있다는것이 중명되였다. 그러나 
AFS 를 통한 국부파일접근은 보통의 Unix 파일연산들보다 더 느러 다(이것은 속도가 높아 지 
면 단일마디의 성능이 약해 지는 병렬체계와 류사하다.). 

(3) Solaris MC NFS 와 AFS 는 다 성 숙된 상업 체 계 들이 다. 이 방법 은 자원들이 리 용 
가능하면 단일 파일계 층을 창조하기 위 하여 워 크스레 이 션의 단일 파일 계 층을 워 크스레 이 션 
의 파일 체 계 로 수정한다. 다행 히 도 대 부분의 Unix 체 계 들은 핵 심 부의 원천코드가 없 이 새 
로운 파일체계를 핵심부에 첨가할수 있게 하는 표준 vnode 대면부를 제공한다. 

이 방법은 요구에 맞게 새로운 파일체계를 만들수 있다는 우월성을 가진다. 사실 
AFS 는 본래 이 방법으로 실현되였다. 부족점은 파일체계개발이 여러달 걸린다는것이다. 
Solaris MC 는 9.4 에서 론의되는 이 방법의 실례를 제공한다. 

9. 3. 3. 단일 I / O 와 망작업 및 기억기공간 

ssi 를 달성 하는데 단일조종점 , 단일주소공간，단일 일감관리 체 계，단일사용자대 면부， 
단일 프로쎄 스조종 이 요구된 다. 

이 개념들은 그림 9-11 에서 서술된다. 이 실례에서 매 마디는 정확히 하나의 망접속 
을 가진다. 4 개 마디들중 2 개는 매개가 련결된 2 개의 I/O 장치를 가진다. 

단일 망화 

적 당히 설계된 클라스터는 하나의 체계처 럼 동작한다. 다시 말하여 그것은 4 개의 망 
접속과 련결된 4 개의 M) 장치를 가지는 하나의 큰 워크스테이션과 같다. 임의의 마디에서 
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임의의 프로쎄스는 임의의 망과 I/O 장치 를 마치도 그것들이 국부마디 에 련결된것처 럼 사 
용할수 있다. 

단일망화는 임의의 마디가 임의의 망접속에 접근할수 있다는것을 의미한다. 

단일 입력/출력 

그림 9-11 의 클라스터 가 Web 봉사기 로 사용된다고 하자. 

Web 정 보자료기지 는 2 개 의 RAID 사이 에 분산된다. http 데 몬의 4 개 의 망접 속으로부터 
오는 Web 요청 들은 프로쎄 스하는 매 마디 들에 서 시 동된 다. 

단일 I/O 공간은 임의의 마디가 2 개의 RAID 에 접근할수 있게 한다. 대부분의 요청들 
은 ATM 망으로부터 온다고 가정한다. 마디 3 의 http 함수들이 4 개 의 마디모두로 분산될수 
있다면 리로울것이다. 

단일 조종점 

체 계관리 자는 전체 클라스터 와 개 별적 인 매 개 마디 를 단일한 점 에서 구성, 감시 , 검 
사, 조종할수 있어야 한다. 

많은 클라스터들은 그림 9-11 에서와 같이 콜라스터의 모든 마디들에 접속된 체계 
console 를 통하여 이것 을 돕는다. 체 계 console 는 체계 관리 자가 관리동작을 수행 하기 위 하 
여 LAN 의 어 디서 나 체계 console 에 원격접속할수 있도록 외부의 LAN (그림 9_11 에서 는 보 
여 주지 않는다.)에 접속된다. 

단일조종점 은 모든 체 계관러동작이 체 계 console 에 의해서 단독으로 수행 된다는것 을 
의미하지 않는다는데 주의해야 한다. 실제로 많은 관리기능들은 클라스터의 여기저기에 
분산된다. 이것은 클라스터조종의 SMP 나 대 형콤퓨터를 관리하는것보다 힘들지 않다는것 
을 의 미한다. 그것 은 관리 관련정 보가 하나의 론러적 장소에 보존되 여 야 한다는것 을 말한 
다. 

관리 자는 하나의 그라픽 스도구를 가지 고 클라스터 를 감시한다. 그라픽 스도구는 콜라 
스터에 대한 전체 형태를 보여 주며 관리자는 의사에 따라 확대 및 축소할수 있다. 

단일 조종점 (또는 단일 관러점 )은 클라스터 체 계 를 구성하는데 서 가장 힘 든 문제 들중의 
하나이다. 
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그림 9-11. 단일망화，단일 I / O 공간, 단일기억기，단일조종점에 대한 설명 
































분산 및 망체계관리의 기술들이 클라스터에 이전될수 있다. 

망관리를 위한 여 러개의 표준들이 이미 개 발되 였 다. 한가지 실례는 SNMP(Simple 
Network Managemant Protocol ) 이 다. 주요콤퓨터 판매 자들은 IBM NetView 나 HP OpenView 
와 같은 정 교한 전용망관러 쏘프트웨어 를 개 발하였 다. HP 는 또한 HP 클라스터관리 를 위하 
여 ClusterView 라고 하는 쏘프트웨어를 특별히 개발하였다. 

그럼 에도 불구하고 유용성지 원체 계，파일체 계, 일감관려체 계와 같이 클라스터쏘프트 
웨어의 나머지부분과 잘 통합되는 사용이 쉽고 강력하고 효률적 인 클라스터관리쏘프트 
웨어를 개 발하는것은 여전히 중요한 연구 및 개 발분야이 다. 

단일기억기공간 

단일 기 억 기 공간은 사용자에 게 하나의 크고 집 중된 주기억 기 에 대 한 환상을 준다. 실 
지 이것은 분산된 국부기억기들의 모임이다. 

PVP 와 SMP , PSM 들은 이러한 관점에서 MPP 와 클라스터들우에 있다. 왜냐하면 그것 
들은 프로그람이 모든 국부 또는 대 역기 억기들을 리용하게 하기때 문이 다. 

클라스터가 단일기억 기공간인가를 검사하는 좋은 방법은 임의의 단일마디가 제공할수 
있는 기억기공간보다 더 큰 기억기공간을 요구하는 순차프로그람을 실행하는것이다. 그림 
9-11 의 매 마디는 사용자가 리용가능한 256 MB 의 기억기를 가진다고 하자. 리상적인 단일기 
억기형태는 클라스터가 1 GB 의 기 억기를 요구하는 순차프로그람을 실행하게 한다. 이것은 
클라스터를 SMP 로 느끼게 한다. 

클라스터우에서 단일기 억기공간을 실현하기 위한 여 러 가지 방법들이 제 기되 였다. 쏘 
프트웨어 DSM 의 방법 은 이 미 5장에 서 론의하였 다. 다른 방법 은 콤파일 러 가 응용의 자료 
구조들을 여러 마디들로 분산시키는것 이다. 

효률적 이 고 가동환경독립 이 며 순차2진코드를 지 원할수 있는 단일 기 억기 구조를 개 발 
하는것 은 여 전히 힘 든 과제 이 다. 

그밖의 단일형래 

단일체 계영상의 최 종목표는 워크스테 이 션이 나 SMP 처 럼 클라스터 를 러 용하기 쉽게 
하는것 이 다. 아래 에 워크스테 이 션들에서 제 기된 보충적 인 단일체 계영상들을 서 술한다. 

• 단일일감관리 체 계 모든 콜라스터일감들은 임의의 마디 로부터 단일일감관리체 계로 
제출될수 있다. 9.5 에서 론의하는바와 같이 오늘 리용가능한 그러한 체 계 들은 많 
다. 

• 단일사용자대면부 사용자들은 단일그라픽스대면부를 통하여 클라스터를 리 용할 
수 있어야 한다. 그러한 대면부는 워크스테이션(실례로 Common Desktop 
Environment 또는 CDE ) 들과 PC 들(실 례 Microsoft Windows 95) 에 리용가능하다. 
클라스터의 개 발에 참가하는 좋은 방향은 Web 기 술을 리 용하는것 이 다. 

• 단일프로쎄스공간 사용자의 모든 프로쎄스틀은 그것들이 상주하는 그 어디에서 
나 단일한 프로쎄스공간에 소속되며 단일한 프로쎄스식별자구조를 공유한다. 임 
의 의 마디 의 프로쎄 스는 원격마디 의 프로쎄 스들을 창조(실 례 로 Unix 의 fork 를 통 
하여)하거 나 그것들과 통신(실례로 신호，관흐름 등)할수 있다. 
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9.4. Solaris MC 의 단일체계영상 


Sun Microsystems 는 단 일 마 디 Solaris 핵 심 부 [369] 의 견 본 확 장 인 Solaris MC(MC 는 
multicomputer 를 의 미한다.)를 개 발하였다. 이것을 그림 9~12 에서 보여 준다. 마디들은 
Solaris 조작체 계 를 실 행 하는 Sun 워 크스테 이 션들에 대 응한다. 


사용자는 단일하고 고도로 유용가능한 체계를 본다 


Solaris MC： 대역파일, I/O, 망，유용성 

Solaris 


Solaris 


마 디 

• • • 

마 디 


~T~ 


r" 



통신 호상 접속 


1 


그림 9-12. Sun Microsystems 의 Solaris MC 에 대 한 개 념도 

Solaris MC 는 핵 심부수준에서 단일체 계 영상과 높은 유용성 을 제공하며 핵 심부우의 
다른 방법들보다 더 효률적 인것으로 인정되 고 있다. 

Solaris MC 는 대 상지향기 술을 통하여 실현된다. 또한 이 것은 대 상지향언어 C++, 표 
준 COBRA(Common Object Request Broker Architecture) 대상모형 및 그 대 면부정의 언어 (IDL) 
를 널리 사용한다. 

아래에서는 Solaris MC 가 어떻게 단일프로쎄스공간과 단일망화，단일！/ O 공간을 실현 
하는가를 론의한다. 

9. 4. 1. 대역과일체계 

Solaris MC 는 Proxy 파일 체 계 (PXFS) 라고 하는 대 역 파일 체 계 를 사용한다. 주장하는 기 
본특징은 단일체 계영상과 일관성의미 가 높은 성능이 다. PXFS 를 그림 9-13 에서 설명한다. 


PXFS 
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그림 9-13. Solaris MC 의 Proxy 파일체 계 






























Proxy 파일 체 계 

PXFS 는 파일접 근이 프로쎄 스와 파일위 치 에 대 하여 투명하게 한다. 즉 임 의의 프로 
쎄스는 갈은 경 로이 름을 가지 고 임의의 마디들의 임 의의 파일 에 접 근할수 있다. 이 것은 
클라스터의 파일체 계를 워크스테 이 션의 파일체 계와 득 같게 한다. PXFS 는 단일체 계영상 
을 Vnode/UFS 대 면부의 파일 연산들을 가로채 서 달성한다. 

현대 Unix 체 계 들 (Solaris 포함)은 가상파일 체 계 (VFS) 를 통하여 파일 연산들을 수행 한다. 
여 기서 Vnod 는 등록부，기 호적 련결，특수한 장치，흐름 (S 仕 earn), 교환파일 (swap file) 등과 
같다. 이것은 보통의 자료 및 코드파일들에 대한 추상이다. 워크스테 이션에서 Solaris 의 
핵심부는 VFSA^node 의 연산들을 통하여 파일에 접근한다. 

클라스터에서 프로쎄스와 파일은 서로 다른 마디에 상주할수 있다. 의뢰기마디가 
VFS/Vnode 연산을 수행 하면 Solaris MC 의 proxy 층은 먼 저 VFS/Vnod 연산을 대 상호출로 전 
환하여 파일 이 상주하는 마디 (봉사기마디 )로 보낸 다. 그다음 호출된 대 상은 봉사기마디 의 
Solaris 파일체 계 에서 국부 VFS/Vnode 연산을 수행한다. 이 실현방법 은 Solaris 나 파일체계의 
수정을 요구하지 않는다. 

파일캐 쉬 화 

성능을 개선하기 위하여 PXFS 는 원격대상호출을 줄이기 위하여 의뢰기의 확장캐쉬 
를 사용한다. 캐쉬화대상은 캐쉬자료를 관리하도록 의뢰기에 보존되며 봉사기의 캐쉬화 
대상은 파일의 의미적일관성을 유지한다. 파일의 페지들은 봉사기마디의 안정기억과 하 
나이상의 의뢰기마디의 캐쉬에 상주한다. PXFS 는 령복사, 마디들사이의 대규모자료전송 
을 수행 하기 위 하여 bulkio 대 상조종기 (handler) 를 가진 다. 

PXFS 는 페 지 가 여 러 마디 들을 위한 읽 기용캐쉬 로 또는 단일한 마디 를 위한 읽기쓰 
기캐쉬 로 되도록 하는 통표식일관성규약을 사용한다. 

프로쎄스가 공유폐지에 쓰러면 먼저 통표를 획득해야 한다. 이 불결한 페지를 다른 
마디로 보내면 갱신내용을 잃지 않도륵 먼저 봉사기마디의 안정기억에 쓴다. 통표는 읽 
기 /쓰기 체 계 호출의 원 자성 을 실 시 하는데 도 사용된 다. 

9. 4. 2. 대역프로쎄스관리 

Solaris MC 는 단일프로쎄스공간을 제공한다. 

프로쎄스는 프로쎄 스의 모든 스레 드들이 같은 마디 에 상주해 야 함에 도 불구하고 임 
의의 마디에 상주할수 있다. 임의의 프로쎄스는 최상위의 비트들에 프로쎄스의 원천마디 
를 부호화한 대 역프로쎄 스식 별 자 (pid) 에 의해 배 치된다. 

원천마디는 프로쎄스가 창조된(태여 난) 마디 이다. 프로쎄스는 다른 마디에로 이동할 
수 있는데 프로쎄 스의 현재위 치 는 항상 자기 의 원천마디 에 보존된다. 사용자나 체 계프로 
그람이 프로쎄스 P 를 찾으러면 먼저 P 의 pid 를 가지고 국부캐쉬를 조사한다. P 가 꺼내지 
지 않으면 P 의 원천마디로 간다. 
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분산마디 관리 자 

Solaris MC 는 그림 9-14 에 서 설 명하는바와 같이 Solaris 핵 심 부층의 최 상위 에 대 역 프 
로쎄 스층을 첨 가하여 단일프로쎄 스공간을 실현한다. 


Solaris MC 

대역 처리충 


Solaris 

핵심부증 


그림 

매 마디 에 하나의 마디관리 자가 있 으며 매 국부프로쎄 스에 하나의 가상프로쎄 스 
( vproc ) 대상이 있 다. vproc 는 매 프로쎄스의 부모와 자식 에 대 한 정 보를 보존한다. 

마디관리 자는 2개 의 목록 즉 러 용가능한 마디 의 목록과 국부프로쎄 스의 목록을 보존 
하며 이 동한 마디목록들을 포함한다. 프로쎄 스가 다른 마디 로 이 동할 때 대 리 자 vproc 는 
계 속 원천마디 에 보존된 다. 대 리 자 vproc 에 의해 수신된 연산들은 프로쎄 스가 상주하는 현 
재의 마디로 보내 진다. 

대 역프로쎄 스의 관리 를 실 현하려 면 추가적 인 작업 이 진행 되 여 야 한다. 

실례 로 모든 프로쎄 스관련체 계호출들은 대 역프로쎄 스층에 로 방향이 바뀌 고 일부 
hook 들이 대 역층을 호출하는 Solaris 핵심부에 첨가되며(이것을 핵심부의 수정을 의미한다.) 
서로 다른 마디들의 대역층들은 IDL 대면부로 통신할것을 요구한다. 국부 proc 파일체계들 
은 PS 와 같은 Unix 연산들이 하나의 대 역 proc 를 조사하여 모든 국부 VnodA ^ FS 대 면부와 같 
은 열린 표준대면부의 부족으로 힘들게 실현된다는것을 발견하였다. 그러한 표준의 구성 
은 클라스터체계를 지 원하는 단일프로쎄스공간의 개 발을 크게 촉진 proc 에 접근할수 있도 
록 하나의 대역 proc 로 통합된다. 

9. 4. 3. 단일 I/O 체계영상 

클라스터 의 I / O 부분체 계 들에 서 단일형 태 를 지 원하기 위 한 2가지 기 술이 개 발되 였 다. 
하나는 통일적 인 장치 이 름짓 기 이 며 다른것 은 단일망이 다. 

통일적인 장치이름짓기 

Solaris MC 는 통일적 인 장치 이 름을 가지 는 단일]/ O 부분체 계 영 상을 제 공한다. 장치번 호는 
장치형태와 기판의 수와 마찬가지로 그 장치의 마디번호로 구성된다. 프로쎄스는 이 이 


1 국부절차목록 1 

가상절차 —7 ᄅ^차 ᄉ 
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9-14. Solaris MC 의 프로쎄 스관러 에 사용된 자료구조 
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틈을 사용하여 그것이 원격마디에 련결되였을 때조차도 마치 국부마디에 련결된것처럼 
임의의 장치에 접근할수 있다. 

장치 구동프로그람들은 동적 으로 적 재 가능하며 동적 으로 구성 가능하다. 구성 은 분산 
된 장치의 봉사기에 의하여 그대로 보존되며 새로운 장치가 클라스터의 임의의 마디로 
첨가될 때마다 통지된다. 임의의 마디의 프로쎄스가 장치구동프로그람을 호출하면 구동 
프로그람은 그 마디 에 적게 된다. 

Solaris MC 는 Solaris 의 모든 장치구동프로그람들이 변화없이 실행되도록 실현된다. 

단일 망 

Solaris MC 는 응용들이 실행되는 어느 마디에 상관없이 현재의 망응용들이 수정되 
지 않고 같은 망접속성을 가진다는것을 담보한다. 망구조를 그림 9-15 에서 설명한다. 

단일워크스테이션과 득같이 Solaris MC 클라스터는 여러 마디들에 련결된 여러개의 망 
장치 들(실 례 로 개 개 가 이써 네 트, 고속이써 네 트， ATM, FDDI 등을 위 한것 ) 을 가진다. 그러 나 
임의의 프로쎄스는 임의의 망장치를 마치 그것이 국부마디에 련결된것처럼 사용할수 있다. 



그림 9-15. Solaris MC 의 망구조(굵은선: 자료통신, 

점선: 조종통신, SAP: 봉사접근점) 

모든 프로쎄스들은 임의의 마디로부터 망에 대한 같은 보기를 가진다. 망은 망장치 
leO 을 통하여 오직 마디 A 에만 물리적 으로 접속된다. 그러 나 마디 B 의 프로쎄스는 leO 를 
마치도 그것이 마디 B 에 물리적으로 련결된것처럼 망에 접근하는데 사용할수 있다. 프로 
쎄스가 통보문을 보내 려 고 할 때 그것은 다음과 같이 달성된다. 

(1) 모든 규약프로쎄스(실례로 TCMP) 는 국부마디(즉 마디비에서 진행된다. 

(2) 마디 B 의 mc-net 모둘은 leO 의 위치를 찾아 마디 A 의 mc_net 에로 파케트를 보낸 
다. 

(3) 마디 A 의 mc-net 는 파케 트를 물리 적 망으로 내 보내 는 국부망연산들을 수행 한다. 

봉사접 근점 

망봉사들은 봉사접 근점 (service access point, SAP) 봉사기 를 통하여 접 근한다. TCP/IP 에 
서 하나의 SAP 는 바로 하나의 포구이 다. SAP 이 름공간자료기 지 는 SAP 봉사기 에 서 유지되 
며 콜라스터 의 하나이상의 마디 들에 제 공된 다. 모든 프로쎄 스들은 SAP 가 어 느 마디 에 
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있 는가를 알기 위하여 SAP 봉사기 로 간다. SAP 봉사기 는 또한 같은 SAP 가 동시 에 서 로 
다른 마디들에 한정되지 않는다는것을 담보한다. 

Solaris Me 는 여 러 마디들이 망봉사를 위해 사본된 SAP 봉사기 처 럼 동작하도록 한다. 
실례 로 rlgin 과 telnet, http 봉사기들은 모든 망에 사본된 기정값이 다. 사용자는 매 봉사기 
에 대 하여 하나의 단일입 력 자료를 알고 있 다. 

Solaris Me 클라스터 가 Web 봉사기로 사용된다고 하자. 이때 사용자가 단일 URL 을 사 
용하여 클라스터(마디는 아니다.)에 접근하면 체계는 사용자를 가장 바쁘지 않은 마디의 
http 봉사기에 자동적으로 접속한다. 이 방법으로 모든 마디들은 http 요청들에 병렬로 봉사 
할수 있으며 이것은 처리량을 높이고 응답시간을 줄인다. 

9. 5. 클라스터에서의 일감관리 

일감관려는 작업부하관리 또는 부하공유, 부하관리 로도 알려 져 있다. 

먼저 일감관리체 계 에서 부닥치 는 기 본문제들을 론의 하고 리 용가능한 쏘프트웨 어묶음 
들을 개괄한다. 다음 널러 사용되는 일감관리체계 LSF(Load Sharing Facility) 와 가동환경 
Computing 의 상업 쏘프트웨 어 를 자세 히 설명 한다. 

9. 5. 1. 일감관리체계 

일감관리 체 계 (Job Management System, JMS) 는 3 개의 부분을 가진다. 

• 사용자봉사기는 사용자가 하나이상의 대기렬 에 일감들을 제출하고 매 일감에 대 
한 자원요구를 서술하며 대 기렬로부터 일감을 지우고 일감이 나 대 기렬의 상태를 
요구하게 한다. 

• 일감일정짜기는 일감형태와 자원요구，자원유용성，일정짜기책략에 따라 일감의 
일 정 짜기 와 대 기렬 만들기 를 수행한다. 

• 자원 관리 자는 자원들을 배 정 하고 감시 하며 일 정 짜기 책 략을 실 시 하고 결 정 정 보들 
을 수집 한다. 

그밖의 기 능들에 는 일 감이 동과 검 사점 설 정 이 있 다. 


JMS 관리와 사용 

JMS 의 기능은 흔히 분산적으로 실현된다. 실례로 사용자봉사기는 매 호스트마디에 
상주하고 자원관리자는 클라스터의 모든 마디들에 퍼질수 있다. 

그러 나 JMS 의 관리는 집중식 이다. 모든 구성 및 기록파일들은 한 위 치에서 유지되여 
야 한다. 또한 JMS 를 사용하기 위한 단일 사용자대 면부가 있 어 야 한다. 

사용자가 한 쏘프트웨어 를 통하여 PVM 일 감들을 실 행 하고 다른 쏘프트웨어 를 통하 
여 MDI 일 감들을 실 행하며 또 다른 쏘프트웨어 를 통하여 HDF 일 감들을 수행하게 하는것 
은 좋지 않다. 
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PVM 과 MPI, HPF 는 4 편의 프로그람작성장들에 서 론의 된 다. 

JMS 는 실 행하는 일 감들에 최 소한의 영 향을 주면서 클라스터 를 동적 으로 재 구성할수 
있어야 한다. 

관리자의 서문 및 종문스크립트들은 보안검사와 계정，지우기를 위하여 매 일감의 
전과 후에 실행될수 있어야 한다. 

사용자들은 자기의 일감들을 깨끗이 지울수 있어 야 한다. 

관리 자나 JMS 는 임의의 일감을 깨끗히 유지 하거 나 지울수 있어 야 한다. 깨끗이라는 
단어는 일감이 유지되거나 지워 질 때 그것의 모든 프로쎄스들이 포함되여야 한다는것을 
의미한다. 그렇지 않으면 일부《고아》프로쎄스들이 체계 에 남아서 클라스터의 자원을 
소비 하며 종당에 는 체 계를 리용할수 없게 만든다. NASA 의 사용자들은 고아프로쎄 스들과 
외 래일감들을 찾고 지우는 능력의 부족이 현재의 JMS 에서 유일하게 가장 큰 문제 라는것 
을 인정하였다. 


일감형태 

여러 형태의 일감들은 하나의 클라스터에서 실행한다. 

순차일 감들은 단일 한 마디 에 서 실 행한다. 

병 렬 일 감들은 여 러 마디 를 사용한다. 

호상작용일감들은 빠른 회전시간을 요구하는 일감들이며 그것들의 입력/출력은 하나 
의 말단으로 향한다. 

이 일감들은 큰 자원을 요구하지 않으며 사용자는 그것들이 즉시에 실행하기를 기대 
하며 대기렬에서 기 다리게 하지 않는다. 

묶음일감들은 보통 큰 기억기공간과 긴 CPU 시간과 같은 더 많은 자원들을 요구한 
다. 그러나 그것들은 즉시적인 응답을 요구하지 않는다. 그것들은 자원이 러용가능하게 
될 때 실행을 위하여 일정이 짜지도록 일감대기렬에 제출된다. 

호상작용 및 묶음일감들은 JMS 에 의하여 관리되 며 외 래 일감은 JMS 의 밖에서 창조 
된다. 실례로 워크스테이션들의 망이 클라스터로 사용될 때 사용자는 호상작용 또는 묶 
음일감들을 JMS 에 제출할수 있다. 한편 워크스테이션의 소유자는 임의의 시각에 JMS 를 
통하여 제출되지 않는 외 래일감을 시 작할수 있다. 

그러한 일 감은 클라스터 의 JMS 를 통하여 제 출되 는 클라스터 일 감들(호상작용 또는 
묶음，순차일감)과 대 립되 는 국부일감이라고도 불리운다. 국부일감의 특징은 빠른 응답시 
간이 다. 

소유자는 워 크스테 이 션의 모든 자원들을 마치 도 클라스터 일감들이 존재하지 않는것 
처 럼 자기 의 일 감수행 에 리용하려 한다. 

콜라스터작업부하의 특징 

일감관려문제들을 실제적으로 처 리하자면 클라스터작업부하의 형 태를 리해하여 야 한 
다. 실제의 클라스터에서 긴 시간의 연산자료에 기초하여 작업부하를 특징 짓는것이 러상 
적 이 다. 그러 나 그것 은 극히 힘 들다. 

Arpaci et al.[44] 는 Berkeley Now 과제 에서 다음의 방법 을 사용하였다. 그들은 53 개 
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워 크스테 이 션들의 망으로 부터 2달동안의 실제의 순차작업 부하기록들을 모으고 32개 마디 
CM -5 로부터 1달동안의 병 렬 작업 부하기 록들을 수집하였 다. 

병렬작업부하기록들은 일감의 개발 및 생성을 포함한다. 그다음 이 기록들은 서로 
다른 순차 및 병 렬작업 부하결 합과 자원배 정，일 정 짜기책 략에 기 초하여 여 러 가지 통계 적 
및 성 능값들을 생성하기 위한 모의기 에 입 력된다. 

Arpaci 의 연구는 다른 연구자들의 측정 결 과가 일 치하는 다음의 작업 부하특징 들을 보 
여 준다. 

• 병렬일감들의 거의 절반은 정규적인 작업시간에 제출된다. 

• 약 80%의 병 렬일감들은 3분동안 또는 그이하에서 실행 된다. 

• 90분동안 또는 그이 상 실행하는 병 렬일감은 전체 실행 시 간의 50%이 상을 차지한 
다. 

• 순차작업부하는 워크스테이션의 60%〜70%가 임의의 시각에 지어 낮시간에도 
병 렬일감을 실행할수 있다는것 을 보여 준다. 

• 워 크스테 이 션에 서 모든 휴식 주기 의 53%는 3분이하이 지 만 휴식 시 간의 95%는 10 
분 또는 그이상의 시간주기들에서 소비된다. 

• 2:1의 규칙이 적용된다. 

이것은 적 당한 JMS 쏘프트웨어를 가지는 64개 워크스테 이 션들의 망은 보통의 순차작 
업 부하이외 에 32개 마디병 렬작업 부하를 유지 한다는것 을 의 미한다. 다시 말하여 클라스터 
는 클라스터크기절반을 초고속콤퓨터 에 자유로 준다. 


일감일정짜기 

일감일정짜기문제는 2.2.6 에서 론의된 프로쎄스의 일정짜기와 류사하다. 그밖의 일감 
들은 특정한 시간(달력일정짜기)에 또는 특정한 사건이 일어날 때(사건일정짜기) 실행을 
위해 일정 이 짜진다. 

클라스터 에 서 일감일정 짜기문제 를 풀기 위한 여 러 가지 방법 들을 표 9-3 에 제 시한다. 
일감들은 복종시 간과 자원(마디, 실행시 간, 기 억기, 디 스크 등)요구, 일감형 태，사용자의 
신원에 기초하여 계산되는 우선권에 따라 일정 이 짜진다. 

정적우선권에서 일감들은 미리 결정된 고정된 방법에 따라 우선권이 배정된다. 단순 
한 방법은 먼저 온것을 먼저 봉사하는 형 태로 일감들의 일정을짜는것 이 다. 

다른 방법 은 서 로 다른 사용자에 게 서 로 다른 우선권을 배 정하는것 이 다. 동적 우선권 
에서 일감의 우선권은 시간에 따라 변한다. 흔히 사용되는 방법은 낮에는 회전시간을 줄 
이 기 위하여 짧고 호상작용적 인 일감들에 더 높은 우선권을 배정하며 저 녁시 간동안에 는 
체 계 리 용을 개 선하기 위 하여 타일불이 기 술을 사용하는것 이 다. 

일 감의 자원요구는 정 적 또는 동적일 수 있 다. 

실례로 일감에 필요한 마디의 수는 고정될수 있다. 즉 같은 마디들은 일감실행동안에 
휴식상태가 되여도 그것의 전체 존재기간에 일감에 배정된다. 

현대 클라스터들에서는 정적자원이 널러 사용된다. 그러나 그것은 콜라스터의 자원려 
용저 하를 가져 오며 사용자가 부하평형을 맞추도록 요구한다. 더우기 워크스테 이션의 소유 
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표 9-3 클라스터마디들에 대한 일감 일정짜기의 문제 


문제 

방법 

주요문제들 

일감우선권 

비선점 

높은 우선권일감들의 지연 

선점 

부가처리, 실현 

자원요구 

정적 

부하비평 형 

동적 

부가처리，실현 

자원공유 

전용 

낮은 러용 

공간공유 

타일붙이기, 큰 일감 

시간공유 

프로쎄 스에 기 초한 일 감조종, 문맥 절 환부가처 러 

일정 짜기 

독립적인 일정짜기 

엄중한 속도저하 

무리일정짜기 

실현곤난 

외래 (국부)일감 
들과의 경쟁 

머무르기 

국부일감속도저하 

이동 

이동럭값，이동의 부가처려 


자가 기계를 닫을 때와 같이 필요한 마디들이 리용불가능하게 되는 상황을 처리할수 없다. 

동적 자원은 일감이 실행시 에 마디 들을 획득 또는 해제하도록 한다. 그러 나 그것은 
실 행하는 일 감과 JMS 사이 의 협 조를 요구하므로 실 현하기 더 힘 들다. 

일 감은 자원들을 첨 가/지 우기 위하여 JMS 에 로의 비 동기적 인 요청 들을 만들것 을 요 
구하며 JMS 는 자원들이 리용가능하게 되 면 일 감을 통지할것 을 요구한다. 

동기 는 일 감이 요청/통지 에 의해 지 연(차단)되 지 않는다는것 을 의 미한다. 

일 감들과 JMS 사이 의 협 조는 현존 프로그람작성언어 들과 서 고들에 대 한 수정 을 요구 
한다. 그러한 협 조를 위한 기 본기구가 PVM 에 존재하며 MPI 에 대 해서 는 일부작업 이 진 
행중에 있다. 


전용방식 

클라스터의 마디들을 공유하는데 3가지 방법들이 사용된다. 

전용방식에서는 한번에 하나의 일감만이 클라스터 에서 실행할수 있으며 한번에 그 
일감의 최대 로 1개의 프로쎄스가 하나의 마디 에 배 정된다. 단일일감은 그것 이 다른 일감 
들을 실행하도록 클라스터 를 해제 하기 전에 는 완성 될 때 까지 실행한다. 

지 어 전용방식 에서도 일부 마디들은 체계사용을 위하여 예 약되며 사용자의 일감에는 
열리지 않는다는것에 주의해야 한다. 그밖의 모든 클라스터자원들은 단일일감을 실행하 
는데 리용된다. 이것은 낮은 체계리용률을 가져 온다. 

공간공유 

공간공유방식 에 서 여 러 일 감들은 마디 들의 분리 된 구획 들에 서 동시 에 실 행할수 있 다. 
한번에 최대로 하나의 프로쎄스가 하나의 마디에 배정된다. 

마디들의 구획이 하나의 일감에 전용됨에도 불구하고 호상접속 및 I / O 부분체계는 모 
든 일감들에 공유된다. 

공간공유는 다음의 실례 에 서 보여 주는 타일붙이 기문제 와 큰 일감문제 를 해 결해 야 
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한다. 


실 례 9.13. 콜라스터 마디 들의 타일 붙이 기 에 의한 일 감일 정 짜기 

타일붙이 기기 술은 그림 9-16 에서 설명 된다. 

그림 9-16 자 )에 서 JMS 는 4개마디 클라스터 에 서 먼 저 온것 은 먼저 봉사하는 간단한 
형식으로 4개 일감을 일정 짠다. 일감 1과 2는 순차적이며 매개 가 하나의 마디만을 요구 
한다. 그것들은 마디 1과 마디 2에 배정된다. 일감 3과 4는 병 렬이며 매개 가 3개의 마디 
를 요구한다. 일 감 3이 오면 그것 은 즉시 적 으로 실 행 할수 없 다. 그것 은 일감 2가 끝나고 
필요한 마디들은 해제할 때 까지 기다려야 한다. 


마디 1 마디 2 마디 3 마디 4- 



시간 


마디 1 마디 2 마디 3 마디 4 


1) 먼저 온것을 먼저 봉사 >-) 타일불이기후 

그림 9-16. 일감들을 클라스터의 마디들로 일정짜기 위한 타일붙이기기술 


타일붙이기는 그림 9-16 니에서 보여 주는바와 같이 마디의 러용률을 높인다. 4개 
의 일감들에 대한 총 실행시간은 일감들을 리용가능한 마디들 전면에 걸쳐 재배치 함으로 
써 크게 감소된다. 


큰 일 감문제 는 큰 일감이 너무 오래 동안 작은 일 감들의 클라스터 자원리용을 막을 때 
생긴다. 이 문제는 전용 또는 공간공유마디들에서 해결될수 없다. 


시간공유 

전용 또는 공간공유모형 에서는 사용자의 하나의 프로쎄 스만이 하나의 마디 에 배정된 
다. 그러나 체계의 프로쎄스들 또는 데몬들은 여전히 같은 마디에서 실행하고 있다. 

시 간공유방식 에서는 사용자의 여 러개의 프로쎄스틀이 같은 마디 에 배정된다. 시 간공 
유는 다음의 병 렬일정짜기방책 을 도입한다. 

(1) 독립적인 일정짜기 시간공유의 가장 간단한 실현은 전통적인 워크스테이션에서 
와 같이 서 로 다른 프로쎄 스들을 일정 짜는데 매 클라스터마디 의 조작체 계 를 사 
용하는것이다. 이것은 국부일정짜기 또는 독립적인 일정짜기라고 한다. 

그러 나 병 렬일감들의 성 능은 크게 낮아 진다. 원인은 병 렬일감의 프로쎄 스들이 호상 
작용을 요구하기때문이다. 

실례 로 한 프로쎄 스가 다른 프로쎄 스와 장벽동기 화를 요구할 때 다른 프로쎄스는 일 
정 짜기 가 되 여 있을수 있 다. 그래 서 첫 번째 프로쎄스는 기다려야 한다. 두번째 프로쎄 스 
가 일정 짜지 면 첫 번째 프로쎄 스가 교체 되 여 버 린 다. 
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(2) 무리 일정짜기 무리 일정짜기방법 은 병 렬일감의 모든 프로쎄 스들을 함께 일정 짠 
다. 한 프로쎄 스가 활성 이 면 모든 프로쎄 스들은 활성 이 다. 

Berkeley 의 연구는 무리 일정짜기가 성능을 1:2로 개선할수 있다는것을 보여 준다. 

클라스터의 마디들은 완전히 박자동기화되지 않는다. 사실 대부분의 클라스터들은 
비 동기체 계 들이 며 갈은 박자로 움직 이 지 않는다. 

《모든 프로쎄스가 동시에 실행되도록 일정 짜진다》고 할 때 그것들은 정확히 같은 
시 간에 시 작하지 않는다. 무러일정 짜기삐뜰어짐 은 첫 번째 프로쎄 스가 시 작한 시 간과 마 
지막프로쎄 스가 시 작한 시 간사이 의 최 대차이 다. 

Berkeley 의 연구는 병렬일감의 실행구간은 무리일정짜기삐뜰어짐이 더 커짐에 따라 
증가하여 더 긴 실행시간을 가지게 된다는것을 보여 준다. 

NOW 는 더 큰 시 간토막 ( Is ) 또는 작은 무리 일 정 짜기 삐 뜰어 짐 (10 ms ) 을 가진다. 

Berkeley 연구는 무리일정짜기가 효과적 인 동질클라스터를 사용하였다. 그러나 무리 일 
정짜기는 실현의 곤난성으로 하여 아직 대부분의 클라스터들에서 실현되지 못하였다. 

(3) 외 래 ( 국부)일감들과의 경 쟁 콜라스터의 일감들과 국부일감들이 다 실행하면 일정짜 
기는 더 복잡해 진다. 국부일감들은 클라스터의 일감들보다 높은 우선권을 가진다. 
소유자는 한번의 건반누르기로 모든 워크스테이션자원들을 조종하고 싶어 한다. 

그러한 상황을 프로쎄 스하는데 기 본적 으로 2가지 방법 이 있 다. 

클라스터의 일감은 워크스테이션마디에 머무르던가 다른 휴식마디로 이동할수 있다. 
머 무르기방법 은 이 동비 용을 없 앤 다는 우월성 을 가진다. 여 러 머 무르기 방법 들이 제 안되 였 다. 

실례 로 클라스터의 프로쎄스는 가장 낮은 우선권으로 실 행될수 있다. 워 크스테 이 션 
의 주기 들은 3개 의 부분 즉 핵 심 부의 프로쎄 스, 국부프로쎄 스, 클라스터 프로쎄 스를 위한 
부분으로 나눌수 있다 [213]. 그러나 특히 클라스터의 일감이 빈번한 동기화와 통신을 
요구하는 부하평형병 렬일감인 경우 머무르기는 국부 및 클라스터의 일감들의 속도를 
낮춘다. 이것은 주로 작업부하의 평형을 위하여 일감들이 리용가능한 마디들로 흐르는 
이 동방법 을 리용하게 된 다. 


이동방법 

이 동방법 은 다음의 3가지 문제 점 을 고려해 야 한다. 

• 마디유용성 일 감이 이 동해 야 할 다른 리용가능한 마디 를 찾을수 있는가? 
Berkeley 의 연구는 대 답이 거 의 긍정 적 이 라는것 을 가리 킨다. 가장 많이 사용되 는 
시 간에 도 콜라스터 의 60%의 워 크스테 이 션들은 러 용가능하기 때 문이 다. 

• 이동의 부가처 리 이동의 부가처 리의 영 향은 무엇 인가? 이동시 간은 병 렬일감의 
속도를 크게 낮출수 있다. Berkeley 의 연구는 속도낮춤이 2.4 배로써 크다는것을 
가리 키 고 있 다. 그러 므로 이 동부가처 리 를(실 례 로 통신부분체 계 를 개 선하며 ) 줄 
이든가 이동을 극히 제 한하는것 이 중요하다. 
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속도낮춤은 병 렬일감이 2배 크기 의 클라스터 에 서 실행할 때 보다는 작다. 실례로 
32 개마디병 렬일감이 60 개마디콜라스터 에서 실행 될 때 이 동에 의한 속도낮춤은 이동시 간 
이 3 분으로 길 때조차도 20% 이하이다. 이것은 더 많은 마디들이 러용가능하여 이동에 
대한 요구가 적 어 지기때문이 다. 

• 보충턱 값 보충턱값은 얼 마인가? 가장 나쁜 경 우는 프로쎄 스의 소유자가 곧 요 
구하게 될 바로 그 마디 를 이 동할 때 이 다. 그러 므로 프로쎄스는 다시 이 동해 야 
하며 주기 는 연기 된다. 보충턱 값은 클라스터 가 워 크스테 이 션을 휴식마디 로 간주 
하기전까지 워크스테 이션이 사용되지 않고 머무르는 시 간의 량이다. 

Berkeley 연구는 3 분의 보충턱 값이 병 렬일감의 성능을 최 대 화한다는것 을 보여 준다. 


일정짜기방책의 명세서 

사용자의 자원요구는 복잡하므로 JMS 는 복잡한 일 정 짜기규칙 들을 실 현 하는 융통성 
있는 일정짜기대 면부를 가져 야 한다. 선택들에 대한 안내는 융통성 이 충분하지 않다. 대 
면부는 또한 대부분의 사용자들에게 알맞는 기정의 일정짜기방책을 제공해 야 한다. 

9. 5. 2. 일감관리체계들에 대한 개팔 

상업 및 공공령 역 에서 현재 20 개 이상의 JMS 묶음 (package) 들이 사용되고 있다. Berker 
et al.[56] 은 잘 정의된 기준들의 모임에 따라 이 묶음들을 평가하였다. 

표 9-4 는 그러한 기 준들에 따라 분류한 이 묶음들의 최 상위 5 개 를 개 괄한다. Web 자 
원은 이 모든 묶음들에 대한 지시자들을 포함한다. 

DQS 공공령 역묶음들중의 하나인 DOS(Distributed Queueing System) 는 더 욱 완성되 고 
있 으며 (현재 판본 3) 지 금 널 리 사용되 고 있 다. DQS 는 Florida State 대 학에 의 해 창조되 며 
유지되고 있다. 또한 독일의 GENIAS GmbH 에 의 해 제공된 Codine 이 라고 부르는 상업용판 
본을 가지 고 있 다. GENIAS 는 Codine 이 사실상의 유럽 표준으로 되 였다고 주장하고 있다. 

LSF 전 세계에 20000 이상의 사용허가를 가지는 가동환경 Computing Corporation 의 
LSF(Load Sharing Facility) 는 대체로 가장 널리 사용된다. 9.5.3 에서 LSF 를 상세히 론의 
한다. 

NQS 2 개 의 다른 묶음 즉 Codor 와 NQS(Network Queueing System) 가 있으며 표 9~4 
에 는 기 록되 지 않았지 만 대 단히 영 향력 이 있 다. Codor 는 Wisonsin 대 학에 서 시 작된 공공령 
역 쏘프트웨 어묶음이다. 그것 은 휴식워 크스테 이 션의 주기 들을 리용하며 검 사점 과 프로쎄 
스의 이동을 지원하는 첫번째 체계들중의 하나이다. 

NQS 는 Stirling Software 에 의 해 이 미 1980 년대 에 시 장에 나왔는데 DEC 와 IBM, Cray 
의 연구용초고속를퓨터 들의 NAS and box 용 JMS 를 생 산하기 위 하여 NASA Ames 
Research laboratory 와 계약하였다. 

Connect : Queue NQS 는 사실상의 JMS 표준으로 되였으며 묶음인자는 프로쎄스 
(processing) 를 위 하여 여 러 가지 초고속공퓨터 들에 서 아직 도 널 리 사용되 고 있 다. 
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현재의 대부분의 JMS 묶음들은 NQS 호환이라고 부르는데 이것은 그것들이 NQS 지 령 
들을 지 원한다는것 을 의 미한다. 상업 NQS 는 Sterling Software 의 Connect:Queue 로 발전하였 
다. Generic NQS 라는 공공령역 NQS 의 실현도 있는데 영국의 Sheffield 대학에서 유지되고 
있 다. 

표 9-4 의 묶음들은 다음의 특징들을 가진다. 특징들중 일부는 표에 명확히 기록되지 
않았다. 이 특징들은 다른 묶음들에 대해서도 전형적 이다. 이 특징들중 일부는 9.5.3 에서 
LSF 를 론의할 때 자세히 본다. 

• 사용자지원이 제공되는데 상업묶음들은 일반적으로 더 좋은 사용자지원을 제공 
한다. 

• 묶음들은 모두 이 질클라스터들을 지원한다. 매 마디는 주요 Unix 가동환경들중 임 
의의것이 될수 있다. 그러나 Windows NT, Windows 95, Windows 3 은 지원하지 
않는다. 

• 묶음들은 모두 여 러개의 설정 가능한 형 태의 일감대 기렬을 제 공한다. 

• 이 묶음들이 기업콜라스터에서 사용될 때 JMS 로 관리되는 클라스터의 일감틀은 
국부일 감들을 수행하는 워 크스테 이 션의 소유자에 게 영 향을 준다. 그러 나 NQE 와 
PBS 는 그 영 향을 조절할수 있 다. DQS 에 서 는 그 영 향이 최 소로 되 도록 설정할수 
있 다. 


표 9-4 _ 일감관리체계들에 대한 개팔 


■ 이름 

상업용묶음들 

공공령역묶음들 

Connect: 

Queue 

LSF 

NQE 

DQS 

PBS 

판매 자/창조자 

Sterling 

가동환경 

Cray 

FSO 

NASA 

가동환경 (Unix) 

예 

예 

예 

예 

예 

묶음일감지원 

아니 

예 

예 

예 

예 

호상작용일감지원 

예 

예 

예 

예 

예 

병렬일감지원 

예 

예 

예 

예 

예 

소유자에 대한 영향 

예 

예 

가변 

작다 

가변 

부하평형 

예 

예 

예 

예 

예 

검사점 

아니 

예 

예 

예 

아니 

프로쎄스의 이동 

아니 

아니 

아니 

아니 

아니 

일감감시 

예 

예 

예 

예 

예 

유지/다시 시작 

아니 

예 

예 

예 

예 

동적자원 

예 

예 

예 

예 

예 

사용자대면부 

GUI 

GUI 

GUI,WWW 

GUI 

지령행 

고장허용 

예 

예 

일부 

예 

약간 

보안 

Unix 

Kerboros 

US DoD 

Kerboros 

Kerboros 


• 모든 묶음들은 클라스터 의 제 품들을 효과적 으로 리용하기 위 한 어 떤 종류의 부 
하평형기구를 제공한다. 

• 일 부 묶음들은 검 사점 을 지 원한다. 
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• 표 9-4 의 묶음들은 동적프로쎄 스이 동을 지 원하지 않는다. 그것 들은 정 적 이 동을 
지 원한다. 프로쎄스는 처 음으로 창조될 때 원격마디 에서 실 행 되도록 보내질수 
있다. 그러나 그것이 일단 실행을 시작하면 그 마디에 머무론다. 동적프로쎄스이 
동을 지 원하는 묶음은 Conder 이 다. 

• 모든 묶음들은 사용자 또는 관리 자에 의한 사용자일 감의 동적 인 유지 및 재 시 작 
을 가능하게 한다. 

• 모든 묶음들은 자원(실례로 마디)들을 자원저장소에 동적으로 첨가하거나 자원 
저 장소로부터 동적 으로 제 거하게 한다. 

• 대부분의 묶음들은 지령행대면부와 도형사용자대면부를 다 제공한다. NQE 는 
지 어 Web 와 비슷한 사용자대변부도 제공한다. 

• 대부분의 묶음들은 Unix 보안기구들외에 Kerboros 인증체계를 사용한다. 

9. 5. 3. 부하공유기능 ( LSF ) 

LSF 는 가동환경 Computing 의 상품화된작업 부하관리 체 계 이 다. 그것 은 Tronto 대 학에 서 
개 발한 Utopia 체 계 [668] 로부터 발전 되 였 다. 

LSF 는 검 사점 설정，유용성，부하이동, 단일체 계영상에 대 한 지 원을 가진다. LSF 는 고 
도로 확장가능하여 수천개 마디 로 된 클라스터 를 지 원할수 있다. LSF 는 PC 들과 워크스레 
이 션들로부터 IBM SP2 MPP 들까지 의 여 러 가지 Unix 및 Windows /NT 가동환경 들을 위하 
여 실 현되 였 다. 최 근에 LSF 는 광대역 망을 지 원하는데 로 확장되 였 다. 

리 론적 으로 LSF 는 여 러 인 터 네 트싸이 트에 서 실 행 하는 일감들을 관리 하는데 사용될 
수 있다. 


응용들 

모든 사용자프로그람들파 명령들 

유털러 리들 

Istools | lsbatch | lstcsh | lsmake | PVM | GUI | … 

API 

LSLIB (부하공유서 고) 

봉사기데몬들 

LIM | RES 

조작 체계 

Unix 가동환경 : AIX, HP-UX, IRIX, Solaris,... 


그림 9- 17. LSF 의 층식구조 

LSF 의 구조 

LSF 구조의 층식표현을 그림 9-17 에서 보여 준다. LSF 는 대부분의 Unk 가동환경들 
을 지원하며 JMS 통신에 표준 IP 를 사용한다. 이것으로 하여 LSF 는 Unix 콤퓨터들의 이질 
적 인 망을 하나의 클라스터로 전환할수 있다. 밑에 놓여 있는 OS 핵심부는 변화시 킬 필요 
가 없다. 다시 말하여 LSF 는 가동환경독립 이 다. 

말단사용자는 유털 리 터 지 령 들을 통하여 LSF 의 기 능들을 리 용한다. 

PVM 은 지원되며 MPI 지원은 예정되고 있다. 

지 령 행 대 면부와 GUI 가 제 공된 다. 
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LSF 는 또한 숙련된 사용자들에 게 LSLIB(load sharing library ) 라고 부르는 시 간서고인 
API 를 제공한다. 

LSLIB 사용은 사용자가 응용코드를 수정하도록 명 백하게 요구하며 따라서 유털리 터 
지령들은 사용하지 않는다. 

클라스터의 매개 봉사기마디에서 2개의 LSF 데몬이 시작되여 야 한다. 

부하정 보관리 자 ( LIM ) 는 주기 적 으로 부하정 보를 수집하여 교환한다. 

원격실행봉사기 ( RES ) 는 임의의 과제 들에 대 하여 투명한 원격실행 을 제 공한다. 

LSF 유릴 리 터 

LSF 문헌에서는 콤퓨터를 호스트라고 부론다. 이 책의 나머지부분에서는 호스트대신 
에 일관하게 node (마디)라는 술어 를 사용하겠다. 하나의 마디는 여 러개의 처 리 기를 가 
질 수 있지 만 항상 조작체 계 의 단일 한 복사만을 실 행한다. 

• LSF 는 호상작용과 묶음，순차, 병 렬일감들의 모든 4개 결합들을 지 원한다. LSF 를 
통하여 실행 되지 않는 일감을 외 래일감이라고 한다. 봉사기마디 는 LSF 일감들을 
실행할수 있는 마디 이 다. 의뢰기마디는 LSF 일감들을 초기화하거 나 제 출할수 있 
지만 실행은 할수 없는 마디이다. 봉사기마디의 자원들만이 공유될수 있다. 봉사 
기마디들은 또한 LSF 일감들을 초기화하거 나 제 출할수 있다. 

• LSF 는 LSF 로부터 정 보를 얻 고 일 감들을 원격 으로 실 행 하기 위한 도구들의 모임 
( lstools ) 을 계공한다. 실례 로 lshosts 는 클라스터의 모든 봉사기마디 의 정 적 자원들 
(아래 를 보라.)을 기 록한다. 지 령 lsrnn 은 원격마디 의 프로그람을 실 행한다. 

사용자가 의뢰기마디에 지령행 % lsran-R ‘ swp >100’ myjob 를 건반입력하면 응용은 
100 MB 이상의 적용가능한 교환공간을 가지며 가장 가벼운 부하를 가지는 봉사기 에서 자 
동적으로 실행된다. 

• lsbatch 유털 리 리는 사용자들이 LSF 를 통하여 묶음일감들을 제 출하고 감시하며 실 
행하게 한다. 

• lstcsh 유털리 터는 공공 Unix 지 령해석기 tcsh 의 부하공유판본이 다. 일단 사용자가 lstcsh 
대면부에 들어 가면 제출된 모든 지령은 국부마디를 포함하는 가장 적당한 마디에 
서 자동적으로 실행된다. 이것은 투명하게 진행된다. 즉 사용자는 국부마디에서 실 
행 하는 tesh 와 곡 갈은 대 면부를 본다. 

• lsmake 유털 리 리는 Unix 의 make 유털 리 터의 병 렬판본이 며 하나의 makefile 이 여 러 
마디들에서 동시에 처리되도록 한다. 

실례 9.14. 륨퓨터들의 콜라스터에서 LSF 의 응용 

한 클라스터가 8개의 값 비싼 봉사기와 100개의 값 눅은 마디들(워크스테이션 또는 
PC 들)로 구성 된 다고 하자. 봉사기 마디 들은 응용쏘프트웨어 를 포함하여 더 좋은 하드웨 어 
와 쏘프트웨어 를 사용하므로 비 싸다. 

하나의 사용허 가는 Fortran 콤파일 러 와 CAD 모의 쏘프트웨 어 에 러 용가능하며 4명 까지 
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의 사용자에게 타당하다. 

LSF 와 같은 JMS 의 사용과 봉사기 마디 들의 모든 하드웨 어 및 쏘프트웨어 자원들은 의 
뢰자들에 게 투명한 방법 으로 리용가능하다. 

의뢰기의 말단앞에 앉아 있는 사용자는 마치도 국부적으로 의뢰기마디가 모든 쏘프 
트웨어 와 봉사기 의 속도를 가지 는것 처 럼 느낀 다. 

《lsmake my . makefile 》 을 건반입 력 하여 사용자는 4개 까지 의 봉사기 들에 서 자기 의 원 
천코드들을 를과일 할수 있 다. LSF 는 가장 적 은 부하를 가지 는 마디 들을 선택한다. LSF 의 
사용은 자원 리용에 도 유리하다. 실례 로 CAD 모의 를 실 행하려 는 사용자는 묶음일감을 제 
줄할수 있다. 

LSF 는 CAD 사용허 가의 리용가능성 을 자동적 으로 검 사하고 그것 이 적 용가능하게 되 
자마자 그 일감의 일정을짠다. 사용자는 기 다리지 않아도 된다. 

많은 체계들에서 의뢰기는 대체로 휴식하고 있거나 일부 국부일감들을 실행하고 있 
다는데 주의해 야 한다. 


자원정보 

매 봉사기마디의 LIM 은 이 마디에 대한 정적 및 동적자원정보들을 수집한다. 정적 
자원정 보는 시 간에 따라 변하지 않으며 체 계시동시 에 LIM 에 의해 얻 어 진다. 동적 자원 
정 보는 부하벡 토르의 부하지표들의 모임 으로 표현되 며 시 간에 따라 변하고 LIM 에 의해 
주기적으로 얻어 진다. 

• 정 적 자원 LSM 이 공개한 일부 정 적 자원들을 표 9-5 에 기 입한다. 마디형 태 는 클 
라스터의 구성 에 의해 결정 되 며 LSF 관리 자에 의해 설정된다. 그것 은 Alpha , 
RS 6000, MIPS 등과 같은 하나의 문자렬이 다. CPU 배 수는 클라스터 에 서 가장 느 
린 마디 즉 CPU 배수가 1인 마디 와 비 교한 마디의 상대속도이 다. 

다음 3개는 마디의 최대기억기공간과 국부디스크의 최대교환공간, 마디의 tmp 파일체 
계의 최대공간이다. 


표 9-5 _ LSF 의 정적자원들 


지표 

척도 

단위 

결정요인 

type 

마디 형 래 

문자렬 

구성 

cpuf 

CPU 배 

상래 

구성 

maxmem 

사용자에 게 

리 용가능한 최 대 RAM 

MB 

LIM 

maxswp 

사용자에 게 

리용가능한 최대교환공간 

MB 

LIM 

maxtmp 

tmp 에 서 리 용가능한 최 대 공간 

MB 

LIM 


다른 정적 자원들은 쏘프트웨어의 사용허 가와 리 용가능성 이 다. 여 기서 마디는 하나의 
파일봉사기 등이다. 
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• 부하지표 부하지표들의 일 부를 표 9-6 에 기 입한다. 이 지 표들은 매 Is 또는 30, 
120 s 마다 LIM 에 의해 갱 신된 다. 


표 9-6 _ LSF 부하백토르에 포함된 일부 부하지표들 


지표 

량 

단위 

평균 

갱신간격 

status 

마디 상태 

문자렬 

N/A 

15s 

R15s 

실 행 대 기 렬 길 이 

프로쎄 스수 

15s 

15s 

ut 

CPU 리 용률 

퍼센트 

lmin 

15s 

Pg 

페 지 속도 

(폐 지 수) per sec 

lmin 

15s 

Is 

접속수 

사용자수 

N/A 

30s 

it 

흡수시간 

분 

N/A 

30s 

swp 

리 용가능한 

교환공간 

MB 

N/A 

15s 

mem 

리 용가능한 

기억기 

MB 

N/A 

15s 

tmP 

tmp 의 리용 
가능한 공간 

MB 

N/A 

120s 


마디 의 상태 는 ok(LSF 일 감수행 에 리용가능), 비 리용가능 (LIM 의 응답하지 않는다.)， 
busy (부하가 턱값을 초과)，어떤 다른 상태일수 있다. 

rl 5 s 실행대 기렬길 이는 15 s 동안 CPU 를 사용하기 위하여 준비된 처 리의 평 균수이다. 
CPU 리용률은 지 나간 시 간에 CPU 가 사용자 또는 체 계코드들을 실 행 하고 있은 평 균백 분 
률 이 다. 


• 페지화속도 폐지속도는 가상기 억기페지속도 즉 매초당 디스크로부터 읽거나 디 

스크에 쓰는 패지의 수이다. 조밀하게 폐지화되고 있는 마디는 화상트랜잭션일감 
들에 느리게 응답한다. 

Is 지표는 이 마디에 접속한 사용자의 수로 젠다. 휴식시간은 건반누르기 또는 마우 
스누르기, 인쇄와 같은 마지막 입력 또는 출력트랜잭선으로부터 몇분이 흘렀는가를 젠다. 

LSF 는 아래 에 서 서 술하는바와 갈은 일부 부하공유책 략들과 유용성 지원, 부하평 형 전 
략들을 개발하였다. 

부하공유방책 

Zhou et al .[66 到은 여 러 가지 부하공유 및 일 감배 치 방책 들을 평 가하였 으며 LSF 를 위 한 
다음의 방책 들을 선 택한다. 콜라스터 의 크기 가 작을 때(실 례 로 수십개 이하) LIM 들중의 
하나가 지 배 LIM 으로 선출되 며 나머지 는 종속 LIM 들이다. 종속 LIM 들은 주기 적 으로 자 
기들의 부하벡토르를 지배 LIM 에 보내며 지배 LIM 은 그것들을 클라스터의 부하행렬에 결 
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합한다. 어 떤 마디 가 LSF 일감을 제 출할 때 일감실행 은 지 배 LIM 에 의하여 결정된다. 


지배 LIM 

다른 말로 지배 LIM 은 중앙관리 자로서 모든 봉사기 로부터 온 부하정보들을 유지 하며 
클라스터 의 모든 일 감들을 처 리한다. 더 큰 클라스터 들(실 례 로 수백개 의 봉사기마디 들)에 
대 하여 이 단일지 배책 략은 적 당치 않다. 

LSF 는 큰 클라스터를 몇개의 더 작은 부분클라스터들로 나눈다. 하나의 부분클라스 
터내 에는 여 전히 하나의 단일한 지배 LIM 이 있지만 지배 UM 틀은 교환하면서 부분클라 
스터호상간의 부하공유결정 들을 협 조적 으로 채 택한다. 

표 9-7 에서 보여 주는바와 같이 부하공유부가처리는 낮다. 


표 9-7 LSF 에 의한 일감응답시간, 지배 니 M 의 부가처리,망름신흐 ■ 


콜라스터의 구성 

요청된 마려의 수 

지배 LIMCPU 

시간% 

망트레픽 

(KB/s) 

1 

5 

10 

하나의 15개 봉사기 
콜라스터 

3.8ms 

4.6m S 

5.0ms 

0.8 

0.04 

하나의 33개 마디 
콜라스터 

4.5ms 

7.7ms 

8.4m S 

0.15 

0.09 

하나의 60개 마디 
클라스터 

5.8ms 

14.2ms 

18.5ms 

0.29 

0.17 

20개의 50개 봉사기 
부분들라스터들 

N/A 

1.1 

1.2 


실례 9.15. LSF 부가처리의 평가 

실례 로 60개 의 봉사기마디들로 이 루어 지는 클라스터 에 대 하여 10개 까지의 마디들 
이 요청될 때 일감요청이 나간 때로부터 그 일감이 시작될 때까지 걸러는 시간은 수미 
리 초이 다. 

지 배 LIM 은 마디의 CPU 시 간의 0.29%만을 소비하며 소비된 망대역너 비는 0.17 KB/S 뿐 
이다. 

50개의 마디를 포함하는 부분클라스터 20개로 이루어 진 하나의 클라스터에 대하여 
지배 LIM 들의 CPU 부가처 리 는 1.1%뿐이며 소비된 망대역너 비는 1.2 kb/S 이 다. 

묶음지원 (Batch Support) 

LSF 묶음체 계 구조를 그림 9-18 에서 보여 준다. LSF 는 묶음일감들을 위한 광범한 자 
원들을 제 공한다. LSF 는 NQS 와 통합가능하며 이것은 초고속콤퓨터들을 위한 대중적 인 
묶음대 기렬 체 계 이 다. LSF 는 묶음일감을 실행하는 몇개의 묶음봉사기마디 들을 사용한다. 

묶음봉사기 모임 은 클라스터 의 전체 봉사기 모임 의 부분모임 이 다. 

종속묶음데 몬 sbatchd 는 모든 묶음봉사기 에 서 실 행한다. 

클라스터는 지 배 LIM 이 실행 하고 있는 단일한 지배묶음데몬 mbatchd 를 가진다. 이 지 
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배 마디 는 모든 묶음일 감대 기 렬 들을 유지 한다. 

모든 묶음일감요청들은 지배묶음데몬에 보내지며 지배묶음데몬은 실행을 위해 일정 
짜기와 일감들의 종속묶음봉사와 마디들에로의 급송을 말아 한다. 

묶음일감의 제출 

LSF 일 감은 


bsub - q night - n 10 - 1 jobin - o jobout - e joberr -R “mem>20” myjob 


와 같은 bsub 지 령 에 의해 제출된다. 이것은 myjob 를 night 라고 부르는 대기 렬에 제출한다. 
myjob 의 입력，출력，오유파일들은 각각 jobin, jobout, joberr 이다. 

일감은 매 마디가 적어도 20MB 의 리용가능한 기억기를 가지는 10 개 마디우에서 실 
행된 다. 



그림 9-18. LSF 묶음체계의 구조 


LSF 묶음일감의 생명주기는 그림 9-19 에서 보여 주는 상태변화들을 거친다. 일감이 
LSF 묶음대기렬 에 제 출되 면 그것은 대 기 (PEND) 상태 로 들어 간다. 일감이 모든 자원과 일 
정짜기조건들을 충족하는 마디로 급송되면 그것은 RUN 상태 로 된다. 



일감은 임의의 상태 로부터 LSF 의 bkill 지 령 을 실행하면 소멸된다. 일감실행은 그것 이 
파손되 면 비 정 상적 으로 랄되한다. 

일감은 일감의 소유자나 LSF 관리 자에 의하여 bstop 지 령 을 통해 정 지 될수 있다. bstop 
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지령은 상태를 PEND 로부터 PSUSP 로 전환하며 또는 일감이 이미 급송되였으면 USUSP 
로 전환한다. 

lsbatch 체 계 는 또한 마디 가 과부하이면 그 일 감을 자동적 으로 정 지한다. 

LSF 는 먼저 온것 은 먼저 봉사하기 , 공정한 공유, 선점，배 제 등과 기 본은 여 러 가지 
일 정 짜기방법 들을 지 원한다. 

공정한 공유방법은 자원을 자기의 몫보다 적게 소비한 일감부터 먼저 일정을짠다. 

선점일정짜기는 선점대기렬의 일감들이 마디의 더 낮은 우선권마디들 지어 그것들이 
완성 되 지 않았다해 도 선점하게 한다. 

배제일감은 한 마디 에서 홀로 실행한다. 일 단 그것 이 시 작되 면 lsbatch 는 배제일감이 
끝날 때 까지 다른 LSF 일감들이나 호상작용일감，묶음일감들이 이 마디 를 러 용할수 없도 
록 자물쇠 를채 운다. 

유용성과 검사점설정 

LSF 는 유용성 과 부하균형 을 개 선하기 위하여 여 러 기 술들을 통합한다. 결과 LSF 
클라스터는 적어도 하나의 봉사기마디가 살아 있는 한계속 동작할수 있다. 

LSF 는 대부분의 체계들에서 정적인 사용자수준의 서고를 통하여 묶음일감들에 대한 
검사점설정을 지원한다. 

핵 심부수준의 검 사점설정 은 Convex OS 가동환경용으로 실현된다. 

묶음일 감은 지 배마디 가 고장날 때 조차도 잃 어 지 지 않는다. 일 감들은 새 마디 가 같 
은 구조와 같은 조작체계를 가지는 한 다른 마디로 동적 으로 이동할수 있다. 


LSF 의 지배자선택 

대 부분의 LSF 클라스터 들은 단일 고장점 으로 되 는 단일 한 지 배마디 를 가진다. LSF 는 
이 문제 를 잘 처 리 하기 위하여 지 배 자선발방법 (그림 9-20) 을 실현한다. LSF 클라스터 에 서 
LSM 데 몬들 LIM, RES 와 종속묶음데 몬 sbatch 는 초기 적 재 시 에 모든 마디 부에 서 자동적 으 
로 시작된다. 그림 9-20 에서 보여 준것은 한개 마디의 상태변화이 다. 



그림 9-20. LSF 에서 지배자선발방법의 설명 



임 의의 LSF 클라스터 는 클라스터 의 모든 봉사기마디 들을 차례 로 기록하는 구성파일 
을 유지한다. 

매 마디 는 하나의 마디번 호를 가지 는데 기 록의 첫번째 마디 의 번 호는 0이 다. 초기 
화후에 마디 0은 지 배 자로 된 다. 지 배 자는 다른 봉사기마디 들에 심 장박자를 주기 적으 
로 보낸다. 임의의 다른 마디는 먼저 기다리는 지배자로부터 하나의 심장박자를 받을 
때까지 비지배 자상태 에 들어 간다. 그다음 그것은 종속으로 된다. 지배자마디가 고장나 
면 심장박자통보문을 내보내지 않는다. 매 종속마다는 이것을 발견하고 비지배상태에 
들어 간다. 

그것은 마디번호에 비례하는 1개 시간주기동안 기 다리고 새로운 지배 자를 제출한다. 
두개이상의 마디들이 경쟁하면 가장 작은 마디번호를 가지는 마디가 이긴다. 이 지배자 
선 발방법 은 클라스터 에 서 러 용가능한 모든 봉사기 마디 들사이 의 부하평 형 만큼 높은 유용 
성을 담보하도록 설계된다. 

9. 6. 참고문헌주해와 련습문제 

Gregory Pfister 의 책 [49 刀은 콜라스터 화개 념 에 대 한 직 관적 인 소개 를 제 공한다. 
Martin et al .[431] 은 콜라스터 들에 서 의 통신문제 들을 론의하였 다. Turcotte [62()] 는 콜라스터 
콤퓨터 를 위한 여 러 가지 쏘프트웨어 도구들을 개 괄한다. Walker et al .[633] 은 클라스터 들과 
MPP 들을 위한 열 린 단일 체 계영 상쏘프트웨어 묶음을 개발하였 다. 

IBM HACMP 클라스터는 Berstin [7 기과 [338] 에서 서술된다. Baker et al .[56] 은 12개 이 
상의 클라스터 일 감관리 체 계 들을 개 괄한다. 클라스터 에 대 한 일 감일 정 짜기 문제 들은 Arpaci 
et al .[40], Feitelaon 과 Rudolph [236], Saphire et al .[529], Du 와 Zhang [213] 에서 제기되였다. 
부하평 형 과 고장허 용은 Petti 와 Laugendorfer [496] , Rosenblum et al .[520], kumar et al .[384] 
에서 취급된다. 

대 표적 인 콤퓨터체 계 들의 유용성자료(표 9-2) 는 Digital [19 刀에 있 다. 유용성체 계틀은 
Gray 와 Siewicrek [259], Bowen et al .[106], Azagury et al .[4 기에 서 연구된다. Sun Solaris 
MC 는 khalidi et al .[369] 에 서 서 술된 다. LSF 는 Zhou et al .[667, 668] 에 서 서 술된 다. 
Elnozhy et al .[228] 과 Deconinck et al .[199] 은 검사점설정과 복구회복기술에 대한 포괄적 인 
개 괄을 주었 다. 이 기 술들은 Li et al , [415], Cao et al .[12 到 ， Plank et al .[503, 504, 505], 
Netz 와 Xu [461], Wong 과 Franklin [648] 에서도 연구되였다. Tananenbaum 과 Litzkaw [668] 는 
Condor 체 계 를 론의하였 다. 

분산파일 체 계 들은 Leuy 와 Silberschartz [459], Santayarman [526], Vahalia [621] 에 서 개 괄 
되였다. NFS veraion 3은 Pawlowski et al .[494], NFS 의 Web 판본은 Callaghan [12 이에서 서술 
된 다. AFS 는 Morris et al .[453] 에 서 서 술한 Andrew 로부터 OSF [474] 의 DCE 에서 서 술한 
DFS 로 발전하였다. 
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문 제 


문제 9.1. 클라스터와 관련된 다음의 술어들을 구별하고 실례를 드시오. 

(1) 치밀한 클라스터 대 느슨한 클라스터 

(2) 집중클라스터 대 분산클라스터 

(3) 동질클라스터 대 이질클라스터 

(4) 닫긴클라스터 대 로출클라스터 

(5) 전용클라스터 대 기업클라스터 

문제 9.2. LAN 에서도 발견된 기 업클라스터의 특징 4가지를 드시오. 그다음 클라스터 
가 보통의 LAN 으로 되지 않게 하는 2가지 특징을 드시오. 공통적 인 특징과 차이나는 특 
징들을 간단히 설명하시오. 

문제 9.3. 9.2.1 부분에서 서 술되지 않았지만 체 계의 예정되지 않는 고장을 일으킬수 
있는 다른 상황들을 2개 드시 오. 그러한 문제 들을 해 결 하는 기 술을 제 기하시 오. 

문제 9.4. 그림 9-5 니의 구성은 값이 비싼것으로 비판되고 있다. 

(1) 2가지 다른 부족점을 들고 간단히 설명하시오. 

(2) 그림 9-5 1) 와 그림 9-5 니사이 의 절 충으로서 자기 자체 의 높은 유용성체 

계 를 설계하시 오. 그리 고 왜 자기 의 설계 가 더 좋은가를 설명 하시 오. LAN 

과 SDSI 는 고도로 믿 음직하며 이 것 들의 조종자도 믿 음직하다고 가정한다. 
또한 RAID 디 스크자체 는 믿 음직하지 만 디 스크조종자는 믿 음직하지 않다고 
가정 한다. 

(3) SCSI 가 8개의 포구를 가질 때 설계를 7개 마디클라스터로 확장하시오. 

(4) SCSI 가 8개 의 포구를 가질 때 설계 를 16개 마디 체 계 에 적 당하게 수정하시 오. 

문제 9.5. 이 문제는 실례 9.3 을 참고한다. 마디가 고장나면 고장을 진단하는데 10s, 
작업 부하가 교환되 는데 또 30s 걸 린 다고 가정 한다. 

(1) 예정된 정지시 간을 무시하면 클라스터의 유용성 은 얼마인가? 

(2) 클라스터가 정비를 위해 주당 1시간 정지하지만 한번에 한마디만 정지한다면 
클라스터의 유용성은 얼마인가? 

문제 9.6. Conder 와 Linckpt 를 비 교하고 일반성과 유용성의 견지 에서 각각의 우월성과 
부족점 을 론의하시 오. 
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문제 9.7. 순차콤퓨터 가 512 MB 의 주기억기와 충분한 디스크공간을 가진다고 하자. 
큰 자료블로크에 대 한 디스크읽기/쓰기대 역너 비는 1 MB / S 이 다. 다음의 코드를 실행 하고 
검 사점 을 만들것 을 요구한다. 

do 1000 iterations 

A = foo(C from last iteration ) /* 이 지 령은 10 분 걸린다. */ 

B = goo ( A ) /* 이 지 령은 10분 걸린다. */ 

C = hoo ( B ) /* 이 지 령은 10분 걸린다. */ 

end do 


A , B , C 는 매개가 120 MB 의 배렬이다. 다른 모든것들(실례로 코드，조작체계, 서고들) 
은 최대로 16 MB 의 기억기를 가진다. 콤퓨터가 정확히 한번은 고장나며 콤퓨터자체를 복 
구하는 시간은 무시된다. 

(1) 검 사점설정 이 수행 되 면 최 악의 경 우 코드전체의 성 공적 인 완료에 대 한 실 행 
시간은 얼마인가 

(2) 평범하고 투명한 검사점설정이 수행되면 최악의 경우 코드전체의 성공적인 
완료에 대 한 실행시 간은 얼마인가? 

(3) 포크식검 사점 설정 을 (2) 와 함께 사용하는것 이 러 로운가? 

(4) 사용자지시검 사점설정 이 수행 되 면 최 악의 경우 코드전체 의 성 공적 인 완료에 
대 한 실행시 간은 얼마인가? 최 악의 경 우의 실행시 간을 최소화하기 위하여 사 
용자의 지 령들이 첨가된 코드를 보이시오. 

(5) 포크식검 사점설정 이 (4) 와 함께 사용되 면 최 악의 경 우 코드전체 의 성 공적 인 
완료에 대한 실행시간은 얼마인가 

문제 9.8. 단일입 력 자료를 실현하는 실천적 인 방법을 주고 그것 이 어 떻게 원천등록부 
문제와 다중접속문제를 해결하는가를 설명 하시오. 방법은 ftp , telnet , http 와 같은 대중적 
인 규약들을 지원해야 한다. 

문제 9.9. 단일체 계영상에 대 한 다음의 술어들을 설명 하고 실례를 드시오. 

(1) 단일 파일 체 계층 

(2) 단일조종점 

(3) 단일기억기공간 

(4) 단일프로쎄스공간 

(5) 단일!/ O 와 망 
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문제 9.10. Solaris MC 를 고찰하고 다음의 물음에 대 답하시 오. 


(1) 문제 9.9 에서 어 느 단일체 계 영상의 특징 들이 Solaris MC 에서 지 원되 는가? 
지원되지 않는것은 어느것들인가? 

(2) Solaris MC 가 지원하는 그러한 특징들에 대하여 어떻게 지원하는가를 설명하 
시오. 


문제 9.11. 콜라스터일감관리 체 계 들에 관한 다음의 술어들을 실례 를 들어 설명 하고 
대 비 하시 오. 

(1) 순차일감 대 병 렬일감 

(2) 묶음일감 대 호상작용일감 

(3) 클라스터 일감 대 국부일감 

(4) 클라스터의 프로쎄스，국부프로쎄스 대 핵심부의 프로쎄스 

(5) 전용방식，공간공유방식，시간공유방식 

(6) 독립일정 짜기 대 무리 일정 짜기 

문제 9.12. 이 련습들은 LSF 에 대 한것 이 다. 

(1) LSF 일감의 4개 형태 매개의 실례를 드시오. 

(2) 외 래일감의 실례 를 드시 오. 

(3) 1000개 봉사기클라스터에 대하여 왜 LSF 부하공유방법 이 전체 클라스터가 1개 
의 지배 LIM 을 가지는것보다 또는 모든 LIM 들이 지배자인것보다 더 좋은가 
하는 2가지 려 유를 드시 오. 

(4) LSF 지 배 자선발방법 에서 비지배 자상태 의 마디 가 새 로운 지배 자를 제 출하기전 
에 마디번호에 비 례하는 시 간주기 동안 기 다린 다. 왜 기 다림시 간이 마디번호 
에 비례하는가? 
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제 10 장. 봉사기들과 워크스테이션들의 클라스터 


최근 년간에 를퓨터클라스터제품들과 업무와 기업들, 연구기관들에서 그것들의 응용 
이 눈에 뜨이게 나타났다. 대부분의 클라스터들은 더 높은 유용성과 확장가능한 성능을 
강조한다. 

아래 에서는 클라스터 콤퓨터 분야를 고찰하고 높은급으로부터 낮은 가격의 체 계 들까지 
의 클라스터들에 대한 지원경향을 개괄한다. 여러 클라스터체계들 즉 Microsoft Wolfpack ， 
SGI POWER CHALLENGEarray , Digital TruCluster , Berkeley NOW 프로젝 트, Rice Treadp 
Mark DSM 클라스터에 대하여 상세히 연구한다. 이러한 연구는 오늘날의 콜라스터제품 
들과 클라스터연구프로젝 트들에 대 한 연구 및 응용의 경 험 들을 보여 준다. 

Wolfpack 는 Windows NT 봉사기 클라스터 의 클라스터 화에 대 한 판매 자교차 ( cross ¬ 
vendor ) 쏘프트웨어 표준을 개 발하는 공업프로젝 트이 다. SP 는 과학 및 업 무응용들을 위하여 
성공적 으로 시 장에 내놓은 상업클라스터 MPP 를 나타낸다. TmCluater 는 기 억기통로기술에 
영 향을 주는 SMP 봉사에 로의 클라스터 이 다. NOW 는 Unix 워 크스테 이 션들의 클라스터화를 
위 한 일 부 새 로운 기 구들을 탐구하기 위 한 대 학연구과제 이 다. TreadMarks 는 쏘프트웨 어 
실현된 워크스테 이 션들의 DSM 클라스터 이 다. 

비 교를 위하여 그밖의 클라스터체 계 들과 과제 들을 이 장에 서 간단히 소개한다. 

10 . 1 . 클라스터제품들과 연구과제 

Pfister [498] 에 의 하여 평가된 바와 같이 세계적으로 100000개이 상의 콤퓨터 클라스터 
들이 사용되고 있다. 이 클라스터들에서 마디들은 대체로 PC 들과 워크스테이션들, SMP 
봉사기들이다. 클라스터크기는 대체로 수십개 마디정도이며 몇개의 클라스터들만이 100 
개 마디를 넘는다. 

대부분의 클라스터들은 그들사이의 정규적 인 LAN 접속을 제외 하고 마디들을 접속하 
는데 고속 또는 기 가비 트이 씨네 트， roDI 고리 들, ATM 또는 Myrinet 교환기 들과 같은 상품 
적망들을 사용한다. 일부는 IBM SP 2 과 Compaq NT 클라스터와 같은 전용의 높은 대역너 
비의 망들을 사용한다. 

일부 공공령 역 및 상업쏘프트웨 어묶음들은 단일체 계영 상과 더 높은 유용성，분산일 
감관리 를 지 원 하는데 리용가능하다. 

기본적인 클라스터화기술들이 존재한다. 업무응용들에서 클라스터제품에 대한 대량 
생산을 시작할 기회는 급속히 다가오고 있다. 

10. 1 . 1 . 클라스터제품들에 대한 지원동향 

콤퓨터 들에 대 한 클라스터 화지 원을 높은급시 장으로부터 고볼름시 장으로 이 동하고 
있 다. 

그림 10.1 에서 묘사된바와 같이 클라스터화지원은 체계복합체를 위한 IBM 
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Sypiex[339] 와 SGI POWER CHALLENGE array[548] 4 같은 큰 대 형 콤 퓨 터 (mainframe 
computer) 들을 한데 련결하는것으로부터 시작하였다. 

높은급를퓨터 의 목적 은 중요한 기 업 인터네 트와 자료채 취응용들에 서 협 조적 인 무리계 
산과 더 높은 유용성에 대한 요구를 쉽게 실현하는것이다. 



R 묘묘묘 
URR 묘 

고볼름 
NT 봉사기들 


그림 10-1. 높은급대형콤퓨터로부터 Unix 워크스테 이션 및 고볼를 
PC 체 계 에 로의 콜라스 터 화지 원 경 향 


점 차적 으로 그 경 향은 여 러 AXP 들과 VAX 들이 같은 디스크/레 프조종기들의 모임 에 
련결된 Digital 의 Open VMS 클라스테 551] 에서와 같이 여러 소형를퓨터들에 대한 지원으 
로 움직이고 있다. 

Tandem 의 Himalaya[605] 는 고장허용의 직결트랜잭션처리 (OLTP) 를 위한 고급클라스터 
를 설 계 하였 다. 

탁상용 또는 책상면워크스테 이션사용에 대 한 늘어 나는 경향과 함께 Unix 워크스테 이 
션들의 클라스터화는 주요워 크스테 이 션판매 자들속에 서 대 단히 대 중화되 였 다. 

일부 상업 클라스터체 계 들을 표 10-1 에 기 록한다. 이 표는 모든 판매 자들의 클라스터 
제품들을 남김 없이 포함하는것은 아니 다. 표는 국부적으로 조립된 많은 클라스터들을 포 
함하지 않는다. 아래에서는 이 러한 이미 조립된 상업클라스터들을 간단히 소개한다. 보다 
상세한 정 보는 WWW 홈폐지 나 오른쪽 렬에 기 입된 참고서 로부터 찾을수 있다. 

좋은 워 크스테 이 션클라스터 의 실례 에는 Sun SPARC 클라스테 599] 와 HP 의 Apollo 
9000 를퓨터클라스터， Sequent 의 Symmetry 5000, Digital 의 Alpha 워 크스테 이 션봉사소 [194] 등 
이 있다. 

최 근동향은 Intel 형 PC 들의 콜라스터화에 로의 이 동이 다. 콜라스터제 품들은 통합체계， 
통합쏘프트웨어 도구，통합된 유용성하부구조，통합조작체 계확장 등으로 나타난다. 클라스 
터화동향은 콤퓨터산업 에서 의 크기감소동향과 조화되 여 큰 시 렁 (rack) 크기의 고급콤퓨터 
체 계 로부터 대 용량의 탁상형콤퓨터 체 계 로 이동하고 있다. 

더 작은 마디들의 클라스터지원은 많은 콜라스터대변자들이 예측한대로 용량상에서 
의 판매 를 늘일 것 이 다. 이 동향은 Intel 형 PC 들과 저 가격워 크스테 이 션들의 광범한 사용에 
의 하여 일 어 나고 있 다. IBM 과 Digkal 로부터 Sun 과 SGI, HP, Compaq, Microsoft 까지 의 
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공업 은 클라스터화시 장으로 하여 흥분되 고 있다. Intel 의 SHV 체 계 와 4통로 Pe 
기 초한 주기 ， Windows NT 의 대 칭 다중처 리 능력 의 유용성 은 저 가격봉사콜라」 
한 시장능력을 크게 높이였다. 


표 10-1 _ 상업클라스터체계제품들에 대한 견본표 


회사 

체계이普 

간단한 서술과 참고서들 

DEC 

VMS-Clusters 

VMS 를 위한 고유용성콜라스터들 [55] 

TruClusters 

SMP 봉사기들의 Unix 콜라스터!127]，[397] 

NT Clusters 

WindowsNT 를 위 한 Alpha 식 믈 라스테 195] 

HP 

Apollo 9000 Cluster 

계 산콜라스터 [497] 

MC/ServiceGuard 

NT 콜라逆■티： Solution 을 위 한 HP NetServer[573] 

IBM 

Sysplex 

상업 적묶음일 감과 OLTP 를 위한 공유디 스크대 형 를퓨터 
믈라스 테 339] 

HACMP 

고유용성 물라스터 다중처 리 기 [338] 

Scalable 

POWERparallel (SP) 

POWER 2마디 들과 확장기 준 HPP 로서 의 Omega 
교환기 로 구성 된 워 크스테 이 션콜라스 ») [14] 

Microsoft 

Wolfpack 

Windows NT 봉사기 들의 콜라스터화를 위한 
열 린 표준 [446] 

SGI 

POWER 

CHALLENGEarray 

분산식병행을 위하여 HiPPI 교환기로 구성한 SMP 봉사기마 
디들의 확장가능콜라스터: ,[548] 

Sun 

Solaris MC 

Solans Sun 워크스테이션콜라스터의 확장 [369] 

SPARCcluster 

1000/2000 PDB 

OLTP 와 자료기지처 리를 위한 고유용성 
콜라스터 봉사기 [599] 

Tandem 

Himalaya 

OLTP 와 자료기 지 를 위한 2중마디 들을 가지 는 고도로 확 

장가능한 결폐 허용의 콜라스테60到 

Matathon 

MIAL2 

완전 한 여 유와 실 패복구를 가지 는 
고유용성 콜라스테 425] 


卜라스터화는 유용성과 성능을 다 높일수 있다. 

L 10-11 에 서 보여 주는바와 같이 대 부분의 체 계 들은 유용성클라스터 로 구사 
3 들은 확장가능한 성 능을 강조하는 콤퓨터 클라스터 로서 사용된 다. 클라스터 의 
r 반드시 모순되는것은 아니 다. 일부 고유용성클라스터들은 Tandem 의 Himala ; 
우 같이 확대 가능성 을 위하여 진취 적 으로 하드웨 어여 유를 사용한다. 대 부분의 
f 스터 들은 클라스터 의 하드웨 어여 유를 개 발하기 위하여 이 미 구성 된 쏘프트 
는 사용한다. 고성능클라스터들은 흔히 고성능의 망과 망대면부，통신쏘프트 
}며 특별히 설계된 통신부분체 계 에 의해 지 원된다. 2개의 실례는 기 억기통로 
1■는 DEC TruCluster 와 고성 능교환기 를 리 용하는 IBM SP 2 이 다. 




1 0. 1 . 2. SMP 봉사기들의 클라스터 

명백한 공업적경 향은 여 러개의 동질 SMP 봉사기들을 하나의 통합된 초고속봉사기 
(supersewer) 로 콜라스터화하는것이다. 8.2 에서 제기된 Sun 의 Ultra Emterprise 10000 초고 
속봉사기 는 좋은 실례 로 된다. 또 다른 초고속봉사기실례 는 아래 에서 소개하는 SGI 의 
POWER CHALLENGEarray 이 다. 


실례 10.1. SGI 의 SMP 클라스터 POWER CHALLENGEarray 

SGI 의 초고속봉사기클라스터의 대 략적 인 블로크도를 그림 10-2 에서 보여 준다. 이 체 
계 는 초고속봉사기 로서 의 클라스터 로 형 성 하기 위하여 POWERnode 라고 하는 2 〜 8 개 의 
SMD 마디들을 련결한다. 매 POWERnode 는 36 개까지의 MIPS 10000 처리기와 16GB 의 공유기 
억 기 를 가지 는 Power Challenge SMP 봉사기 이 다. 

총체 적 으로 초고속봉사기 클라스터 는 128 GB 까지 의 주기억기， 4 GB / S 이 상의 확장된 디 
스크전송능력， 28 TB 의 디스크용량을 가질수 있다. RAID 기억용량은 139.2 TB 에 이를수 있 
다. 마디들은 높은 대역너비의 통신을 지원하기 위하여 하나의 크로스바 HiPPI 교환기로 
접속된다. 2등분대 역너 비들은 최대구성 에서 1.6 GB / S 로 평 가된다. 체 계는 Indy 워크스테 이 
션들로부터 이써네 트를 통하여 접 근될수 있 다. 

체 계관리 자 Console 은 단일조종점 이 다. 이 것은 ST_1600box 를 통하여 매 마디 에 로의 
직접적인 RS232 접속을 가진다(점선들). 

이 클라스터는 매 POWERnode 의 공유기 억 기를 가지 고 동작한다. 통보문넘 기 기는 
POWERnode 들사이에서 충분히 지원된다. 

Silicon Graphics 클라스터는 2 〜 288 개의 MIPS® R1000® 처리기들로 이루어 진다. 
Silicon Graphics 초고속봉사기 의 주목할만한 새 로운 하드웨 어 및 쏘프트웨 어 특징 들을 아래 
에 개괄한다. 



그림 10-2. SMP 봉사기 들의 Silicon Graphics 콜라스科 

• SMP 봉사기 들의 클라스터 는 분산병 렬 처 리 에 로의 모둘식방법 을 준다. 충분히 리 
용될 때 최대성능은 109Gflop/S 이다. 

• 그것은 공유기억기와 통보문넘 기 기기술을 결합한다. 이것은 전통적 인 SMP 봉사 
기 들과의 쏘프트웨 어호환성 을 제 공한다. 
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• SMP 마디 들사이 의 고대역 너 비 HiPPI 크로스바접 속으로 하여 비 정 규평 형 에 대 하여 
통신 대 통신비가 감소된다. 

• 모든 POWERnode 들은 64 b Unix ® OS 를 개선한 Silicon Graphics ® 6.1 을 실행하 
며 호상작용적 인 초고속계 산에 대 한 고성 능그라픽 스들을 제 공한다. 

• 매 POWERnode 의 공유기억기접근지연은 l；us 이 하이며 크로스바교환기접속시 간 
은 1/XS 이 하이 다. 

• 프로그람작성은 모둘들의 계층 즉 Fortran 과 HPF , C 를파일러들을 병렬성하고 공 
유기 억 기 프로그람작성， PVM 과 MPI 지 원을 가지 는 통보문넘 기 기 를 사용한다. 

10. 1 . 3. 클라스터에 대한 연구과제 

클라스터화는 활발한 연구분야이 다. 

고속통신，일 감일 정짜기，단일 클라스터 과제 들을 표 10-2 에 제 시한다. 역 시 이 표는 
진행중에 있는 모든 과제들을 포함할수 없다. 여기서 보여 주는것은 고도로 새로운 발전 
이 이 룩되 고 있는 일부 실 례 과제 들이다. 

아래에서는 이 클라스터과제들을 간단히 특징 짓는다. 기록된 클라스터과제들 매개는 
일부 가치 있는 독특한 특징 들을 개 발하였 다. 특징 들은 단일체 계영 상의 쏘프트웨어지원과 
같은 구조적 인 혁 신과 유용성，인 터네 트와 인트라네 트지원들을 가지 는 대 규모분산성 능평 
가기준응용들을 포함한다. 


표 10-2 __ 대표적인 클라스터연구과제들 


과제 /참고서 

클라스터화를 지 원 하는 특별 한 특징 들 

Berkeley NOW 과제 [33] 

능동통보문과 협조적 인 파일，대 역적 인 Unix 확장으로 
특징 지어 지는 워크스테 이션들의 봉사기 없는 망 (10.5) 

Princeton SHRIMP[23 刀 

상품적구성 요소들과 특별 한 망대 면부를 통한 효률적 인 통신과 
공유가상기억기 

Karsruhe Parastation[636] 

분산병렬처 리를 위한 효률적 인 통신망과 쏘프트웨 어개발 

Rice TreadMarks[3 이 

워크스테이션들의 쏘프트웨어실현，분산공유기억기，들라스터 

Wisconin Wind Tunnel[516] 

상품적망으로 호상접 속된 워 크스테 이 션들의 콜라스터에서의 
분산공유기억기 

NSCP[133] 

http://nscp.upenn.edu 

인터 네트로 련결된 3개의 국부클라스터우에서 메타를퓨터를 
위한 확장가능클라스터 과제 

Argonne Globus [200] 

북아메 리 카의 ATM 접 속된 17개 싸이트들의 WAN 을 통한 
메 타를퓨터 가동환경 과 쏘프트웨 어 개 발 

Syracuse WWVM[20 刀 

인 터네 트와 HPCC 기 술을 가지 는 고성 능계 산을 위한 World-Wide 
가상기 계 

PearlCluster[328] 

httD：//Dearl.cs.hku.hk 

분산다매 체 와 금융수자서 고응용들을 위 한 연구믈라스터 
(실례 6.10) 

Virginia 

Legion[282] 

민족가상콤퓨터기지를 지 향하는 메 타계산쏘프트웨어 개발 


481 




• NOW 과제 는 쏘프트웨 어지원，단일체 계 영 상， I / O 와 파일체 계，효률적 인 통신，개선 
된 유용성을 포함하는 클라스터콤퓨터화문제의 거의 전체 범위 를 포괄한다. 10.5 
에 서 NOW 과제 [33] 를 상세 히 연구한다. 

• Princeton SHRIMP 과제 [23 刀는 값 비싼 PC 형 체 계들로 만들어 진 클라스터 에서 효 
률적인 통신과 공유기억기의 지원에 초점을 둔다. 특별한 망대면부기판들이 페 
지 이동수준에서 공유가상기억기를 달성 하기 위하여 개 발된다. 

• Winconsin Wind Tunnel 과제 에 서 는 상품적 마디 들과 상품적 망으로 구성 된 느슨 
하게 결합된 클라스터 에서 어떻게 캐쉬일관성공유기억기를 실현하는가를 연 
구하고 있다. 

• Rice 대 학의 TreadMarks[3 이은 워 크스테 이 션들의 쏘프트웨 어 실현공유기 억 기 클라스 
터의 좋은 실례 이 다. 기 억기 공유는 사용자공간의 실시 간서고와 함께 실현된다. 
10.6 에 서 TreadMarks 를 상세 하게 고찰한다. 

• NSCP(National Scalable Cluster Project ) 는 메 타콤퓨터체 계 들을 연구한다 [133]. 이 것 
은 지 리적으로 먼 지역들에 있는 여 러 도시들에 뻗어 있는 이질클라스터들이다. 
NSCP 견본체 계 는 시 카고와 메릴랜드，펜실바니 아의 3개 의 대 학클라스터 들로 구 
성 되 여 인 터 네 트 를 통 하 여 접 속 된 다 . 상 세 한 내 용 은 Web 싸 이 트 
http :// nscp ， vrenn ， edu 를 참고하시 오. 

• 류사한 메 타콤퓨터화과제 에 는 Globus 과제 가 있는데 이 것은 북아메 리 카의 17개 
싸이트들우에서 초고속콤퓨터 들과 대 용량기 억체 계들，시각화장치 들을 접 속하는 
ATM 망우에 실 현된 다[200, 248, 249]. 

• Legion 과제 는 민족가상콤퓨터 기 지 를 위 한 메 타콤퓨터 화쏘프트웨 어 [282,41 이를 개 
발하고 있다. 

• WWVM(World-Wide Virtual Machine) 과제 는 인 터 네 트와 HPCC(High Performance 
Computing and Communication) 기 술을 목표로 하고 있 다(고성 능콤퓨터 실현을 목표 
로 하고 있 다.)[207, 252]. 

• 홍콩대 학의 Pearl 클라스터는 실례 6.10 에서 소개하였다. 이것은 Sun 과 HP, Alpha, 
SGI 의 Unix 에 기초한 봉사기와 워크스테 이 션들을 ATM 접속한 콜라스터 이 다. 고 
유한 특징 에 는 SSI 를 위한 middleware 지 원과 두 나라 말을 리용하는 인 터네 트검 
색엔 진，자바와 련결된 MPI 통신부분체 계 가 있다. 이 특징 들은 금융수자서 고와 
분산다매 체응용들을 위하여 개 발된 다. 


1 0. 2. NT 클라스터를 위한 Microsoft Wolfpack 

이 책 이 완성 되 였을 때 Microsoft 는 Windows NT 들을 클라스터 화하기 위 한 판매 자교 
차 (cross-vendor) 표준의 첫 판본을 내놓았다. 처음에 그 파제는 Microsoft 외에 Intel 파 
Compaq, Dihital, HP, NCR, Tandem 의 핵심성원들이 망라되였다. 전략적인 협조로 Pfister 
가 도입 한 이 름 Dogpack 로부터 착상된 코드이 름 Wolfpack 를 가지 는 새 로운 클라스터 표준 
을 만들었다. 
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10. 2. 1. Microsoft Wolf pack 의 구성 

Wolfpack 과제 는 Windows NT 봉사기 들을 위 한 콜라스터 쏘프트웨 어 의 열 린 표준을 개 
발하기 위하여 1995년 후에 시 작되 였 다. 그것 은 또한 표준적 인 클라스터 화쏘프트웨어 의 
이름일수도 있다. Wolfpack 는 다음의 독특한 보증을 가진다. 

• Wol 현 ack 는 사용자들과 체 계 판매 자들，3부류쏘프트웨 어 개 발자들에 게 응용프로그람 
작성대면부들에 대한 열린 명세서들을 제공하는 열린 표준이다. 이것은 확정적으 
로 응용쏘프트웨 어 와 체 계 쏘프트웨 어，클라스터 하드웨 어 의 개 발을 촉진할것 이 다. 

• Wolfpack 는 상품적 PC 나 Intel 형봉사기 가동환경 들, SCSI 기 억모선들과 표준망들에 
잘 맞는다. 이 것은 개 발시 간을 줄이고 가격 의 효과성 을 제 공하기 위한것 이 다. 그 
러 나 낮은 지 연의 망과 같은 고성능하드웨 어의 사용은 포함하지 않는다. 

• Wolfpack 의 장기적 인 목표는 PC 들과 워크스테 이션들, 고볼륨봉사기들의 클라스 
터 가 NT 조작체 계 에 서 실 행 하든 비 NT 조작체 계 에 서 실 행 하든 클라스터 의 유용성 
뿐아니 라 확대 가능성，리용편리 성 을 강화하는것 이 다. 

Wolfpack 의 구성요소들 

Wolfpack 는 아래 에 서 간단히 소개하는바와 같은 클라스터 의 API 들, NT 클라스터 지원， 
클라스터 solution 의 모임을 서술한다. 

(1) Wolfpack API API 표준과 SDK(Software Development Kit ) 는 응용클라스터 들을 
이식하도록 설계된다. API 접근은 고장회복을 촉진하며 고장사건들에 대 하여 사 
용자에 게 통지 하고 비 표준지원들을 재획득하며 단순파손이 나 잠금을 제외한 복 
잡한 고장을 감시 할수 있 다. Wolfpack API 는 또한 NT 클라스터 에 서 확대 가능성 
과 동적부하균형을 촉진할수 있다. 

(2) NT 클라스터지원 이 것은 NT 봉사기응용이 Wolfpack 에 복종하도록 한다. 이 것은 
Wolfpack 가 임의의 NT 봉사기 응용에 대 한 기 본적 인 고장회 복을 진행 한다는것을 
의 미 한다. 포장 ( wrapper ) 동적 련결서 고 ( DLL ) 는 클라스터 관리 자에 게 통지 하고 기 본 
적 인 심 장박자신호들을 창조하기 위 하여 개 발되 였 다. 그것 은 오늘 Windows NT 
가 대 칭적인 다중처 리지원을 가지는것과 같은 방법 으로 Microsoft 가 클라스터지 
원을 NT 봉사기들에 첨가하려는것처럼 보인다. 

(3) 를라스터 와 Solution Wolfpack 는 여 러 단계 로 개 발된다. 16개 마디 클라스터 에 대 
한 지원은 1998년 중순에 Beta 검사에 들어 간다. Microsoft 는 Wolfpack 를 Intel 형 
체 계 들이외 에 Alpha 와 POWerPC , MIPS 형봉사기 들에도 리용가능하게 만들것 을 
위 임 받고 있다. 또한 NT 봉사기 구조는 32통로까지 의 SMP 연산들을 지 원 한다. 
Wolfpack 는 앞으로 32개 또는 그이상의 마디들로 확대되도록 될것 이다. 

유용성 를라스터 구성 

초기 의 Wolfpack 클라스터 solution 은 2개 의 봉사기 마디 들에 대 하여 3개 의 높아 지 는 
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든으로 유용성 지원을 제 공한다. 그것 들은 9.2.2 에 서 소가 
받기，고장허 용이다. 

Wolfpack 클라스터 구성들을 회복시간과 고장복구능력！ 3 
서 술한다. 유용성 의 수준은 대 기 클라스터구성 으로부 
L 로 가면서 높아 진다. 

1간이 짧을수록 클라스터의 유용성은 높아 진다. 

누구는 수리 혹은 정 비후에 정 상동작으로 돌아 오는 회 
경은 정상동작기 간에 그 마디 가 능동적 인 작업 에 사용 3 
라스터들은 다음의 부분들에서 론의된다. 




0 . 2 . 2 . 즉시 대응다중봉사기클라스터 

1대응다중봉사기클라스터 에서는 보통 주마디만이 유용한 작업을 활동적 
다. 대기마디는 전원이 투입되면 기본마디의 상태를 검사하기 위한 심국 
신하는 일부 감시 프로그람들을 실행하고 있으며 다른 유용한 작업부하 
행하지 않고 있다. 

1•디는 임의의 자료를 공유디스크기억에 반사해야 하는데 이것은 대기마 
1 쉽다. 

1마디는 모든 자료에 대한 충분한 두번째 복사를 요구한다. 

3 10-3 에 서 대 표적 인 대 기 클라스터구조를 보여 준다. 2중모선은 단일 모 
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그림 10-3. 







고장점 을 제 거하는 2개 의 봉사기 들에 접 속하며 클라스터 에 더 높은 유용성 을 준다. 주마 
더 가 고장나면 거 기 에서 실행하는 일감은 대 기마디 를 걸처서 고장회 피 ( failover ) 될수 있 
으며 이것은 낡은 마디 가 수리되 는 동안 새 로운 주마디 로 된다. 그러 나 대부분의 대 기 
클라스터들에서 고장회피는 가역이 아니다. 

대 기클라스터화를 지 원 하는 판매 자들을 표 10-4 에 서 개 괄한다. 대 기 클라스터 는 제 한 
된 고장회복능력으로 하여 가격이 더 낮다. 

이 대 기클라스터 들중 일 부는 사용자들을 Windows NT 와 Windows 95, Windows for 
Workgroups ( WFW )3.11 로부터 새로운 활동봉사기 에로 자동적 으로 절환할수 있다. 


표 10-4 _ 공업용대기봉사기클라스터들 


콜라스터 판 

매자 

콜라스터모형 

봉사기/디스크 

가동환경 

제공하는 
클라스터지원 

Vinca 

Vanica 대 기 봉사기 

Intel 에 기초한 봉사기들과 

SCSI 조종자들 

Netware 와 OS/2, NT 를 

지원 

IBM 

PC 봉사기 고유용성 

sdution 

Vinca 의 대기봉사기가동환 

경을 가지는 무러 IBM PC 

봉사기 하드웨 어 

OS/2, NT. Notes 믈라 
.스터， PB2 클라스터 

Octopus 

Technologies 

ASO 를 통한 자동절환 

Intel 과 Alpha 봉사기 들 

NT 와 N 통로 

Failover 

Compaq 

대기회복봉사기와 직결 

회복봉사기 

Compaq 봉사기들, 외부기억 
함， SCSI 기판들，하드웨어 

호상접 속카드 

쏘프트웨 어보다는 전 

용하드웨어를 

통한 failover 


10. 2. 3. 능동적인 유용성클라스터 

그림 10-4 에 서 는 활동이어 받기 (계 승)구성 을 가지 는 유용성 클라스터 의 구조를 보여 
준 다. 

이경우 구조는 2개의 봉사기마디사이에서 대칭적이다. 두 봉사기는 정상적으로 유 
용한 작업 을 수행 하는 주마디 이 다. 고장회 피 ( failover ) 와 실패 복구 ( fallback ) 는 흔히 두봉사 
기 마디 들에 서 지 원된 다. 한 마디 가 고장나면 사용자의 응용들은 클라스터 의 리용가능한 
마디 에 로 고장회 피한다. 

學 學學 _學# 學 

.봉사기 I . 뇨봉사斗 




그림 10-4. 2중능동클라스터의 구조 
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표 10-5 에 기 입된 8개의 판매 자들은 활동클라스터를 구성 하기 위한 쏘프트웨 어 및 
하드웨어를 공급한다. Microsoft 와 Digital 의 제품들은 각각 주로 Intel 형 NT 봉사기들과 
Alpha 형봉사기들을 지 원 한다. 나머 지판매 자들은 일 단 NT 클라스터화묶음이 자기 들의 하 
드웨어 망 플채 트홈으로 키 를 돌리 면 Wolfpack 추종을 지 원할것 이 다. 

사용자들은 고장회피의 실현에 요구되는 시간에 따라 일부 지연을 느끼거나 마지막 
검사점에 보존하지 않았던 일부 자료를 잃게 될것 이 다. 

수동적 인 부하평 형 이 고장회 피조건들로 하여 발생한 보충적 인 부하를 최 소화할수 있 
거나 하나의 활동클라스터의 두개 이상의 마디들에 대한 과부하상황을 늦출수 있다. 자동 
고장복구의 특징 은 기 초적 인 대 기 클라스터 들에 비한 주요개 선을 가져 온다. 

Tandem 은 NT 클라스터 solution 을 가지지 않지만 Tandem 의 Compaq 에로의 통합은 활 
동 NT 클라스터나 고장허용 Tandem 클라스터를 생각하는데서 공동의 전문가적인 견해를 강 
화한다. Himalaya 클라스터 들은 OLTP 와 전자상 거 래，인터네 트 WWW , 자료창고，결심 지원， 
소매，건강관리，수송시장을 포함하는 1000개이상의 중요한 업무응용들을 지원한다. 

Wolfpack 특징 들중의 일 부는 비 NT 봉사기 마디 들을 가지 는 클라스터 들을 지 원 하는데 로 
확 장되 고 있 다. NCR Lifekeeper 와 HP MC/Service Guad , Amdahl 의 En Vista Servers , 
Stratus RADIO 는 그러 한 능동적 인 클라스터 의 실례 들이 다. 고장회 피 와 고장복구능력 은 
이 모든 봉사기 클라스터 들에 존재한다. 특히 RADIO 는 2개 의 콤퓨터봉사기 와 2개 의 기 억 
장치，2개 의 망이 하드웨 어 와 쏘프트웨 어，망의 모든 단일 고장점 들을 제 거 하는데 사용되 
는 자체의 충분한 여분에 대하여 특히 강하다. 

10. 2. 4. 고장허용다중봉사기 클라스터 

이 구조는 유용성클라스터 에 대 한 가장 높은 수준의 개 발을 가리 킨다. 

고장허 용은 충분한 여유와 능동적 인 이 어 받기능력 에 의 해 달성된다. 모든 단일고장 
점들은 고장허용능력을 제공하기 위하여 복제된다. CPU 들과 조작체계들, 기억기모선들, 
망대면부들, 디스크 구동장치들，전원공급，체계망 등과 갈은 모든 중요한 구성요소들이 
모두 복제된다. 

Tandem 과 Marathon 와 같은 몇개의 를퓨터회 사들만이 고장허 용클라스터들을 제 품으 
로 내 보냈 다. Tandem Himalaya 는 높은급사용자들을 위 하여 판매 되 였 다. Marathon 클라스터 
는 아래에 실례로 준다. 


표 10-5 _ 능동클라스터판매자들과 그 제공품들 


판매자 

물라스터제품들 
또는 기술 

마디/망 가동환경 

클라스터화지원과 
wolf 뉴 ack 추종 

Microsoft 

Wolfpack 

Intel 에 기초한 Alpha (현재)와 
Power PC 에 기초한 
봉사기 (미래) 

Wol 句) ack 에 서 windows 
NT, API, SDK, DLL 지 원 

Digital 

NT 콜라스터， 

NT 콜라스■터 +Pack 

Alpha NTFS, Microsoft SQL 
Server 6 . 5 , Oracle 7/8 
봉사기들 

Intel 및 Alpha 형 봉사기 
들에 대한 고장회피 
지원 
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목표는 한해 에 6분이하의 정지시 간을 가지는 99.999%의 유용성을 달성하는것 이 다. 이것 
은 대 단히 높은 요구이며 흔히 좀 비싸다. 

MIAL 2 는 최 신 CPU 소편들로 구성 된 2개 의 를퓨터봉사기 를 가진다. 2개 의 자료봉사기 
들은 완전중복고속련 결 들과 MIC(Marathon interface card ) 로 2개 의 콤퓨터 봉사기 에 접 속된 
다. 콤퓨터봉사기 는 실 시 간자료보호를 제 공하기 위하여 정 보를 2개 의 자료봉사기 에 동시 
에 쓴다. 전용 100 Base T 련결들은 반사식 기 억 디스크들을 가지 는 2개의 자료봉사기들속에 
존재 한다. 

만일 하나의 자료봉사기가 고장나면 사용자의 응용은 두번째 자료봉사기에서 계속된 
다. 이것은 하드웨 어 에 의한 무결성검사와 32 MB / S 처 리 량에 의해 달성된다. 

고장난 봉사기 가 수리 되 면 리용가능한 자료봉사기 는 전체 디 스크기 억 을 회 복된 봉사 
기 로 사본함으로써 회 복된 봉사기를 자동적 으로 재동기화한다. 이 사본은 반사식기억 령 
역 1 GB 당 lmin 의 속도로 진행된다. 복제와 활동성으로 MIAL 은 모든 형태의 단일고장들 
을 허용할수 있다. 

Marathon 은 자기 의 클라스터 가 API 들과 스크립 트들, NT 의 특정 한 판본을 요구하지 
않는다고 주장하고 있다. 그러 나 Marathon 은 자기의 클라스터 가 Wolfpack 확장클라스터 에 
하나의 마디로 참가하기를 바라고 있다. 

1 0. 3. IBM SP 체계 

IBM SP 의 특징은 클라스터방법을 MPP 구성 에 사용한다는데 있다. 그 설계경험은 잘 
문서화되 여 있으며 대 규모고성능체계들을 설계하는데서 많은 식견을 준다. IBM 의 설계목 
표들과 전 략들에 대 한 개 괄을 준 다음 SP 클라스터 의 구조와 쏘프트웨 어 환경 을 론의한다. 

1 0. 3. 1 . 설계목표와 전략 

IBM 은 1991년 가을 확장가능한 POWERparallel ( SP ) 과제 [646] 를 시 작하면서 MPP 업 무 
에 들어 갈것 을 결정하였 다. 개 발집 단은 1992년 2월 에 무어 졌 으며 18개 월미 만에 첫번 
째 제품을 내보냈다. 사실 SP 1 이 라고 부르는 첫번째 제품은 1993년 4월에 사용자들에게 
배포되 였 다. follow-on 12개 마디 SP 2 체 계 들은 1994년 8월에 배 포되 였다. 

지금은 체계를 간단히 SP 라고 부른다. 1998년까지 전 세계에 3000개이상의 SP 체계들 
이 설치되였다. SP 는 IBM Deep Blue 과제의 하나인 세계서양장기경기에 적용되였다. 

아래 에 서 술하는것 은 클라스터같기 도 하고 MPP 같기 도 한 SP 체 계 들의 성 공에 영 향 
을 주는 요인들이다. 

• 시장출하시간 고성능콤퓨터는 Moore 의 법칙에 류사한 경향을 따른다. 선도적인 
가격 및 성능을 얻자면 제품이 짧은 시간에 개발되는것이 불가피하다. 

• 일 반목적 대는 서 로 다른 기 술적 및 상업 적응용들과 류행 되 는 프로그람작성모 
형 들，서 로 다른 동작방식 들을 지 원 하는 일 반목적 체 계 여 야 한다. 

• 고성능 SP 는 최대성능은 아니라도 높은 확대된 성능을 제공해야 한다. 이것은 
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많은 고속처리기들뿐아니라 고속기억기，고속통신，좋은 콤파일러，서고 등에도 
의존된다. 

• 유용성 SP 는 고객들이 자기의 상업제품들을 실행할수 있도록 흘륭한 믿음성과 
유용성을 제공해 야 한다. 

이 목표들을 만족시 키 기 위하여 IBM 집 단은 융통성 있는 클라스터구조 즉 전용호상 
접속，개선된 고성능봉사들과 유용성지원들，표준프로그람작성모형들，선택적 인 단일체계 
영 상을 지 원 한다는 전 략을 채 택하였 다. 


를라스터 구조 

IBM 집 단이 내린 가장 힘 들고 중요한 결정 은 클라스터구조를 선택하는것이 였 다. 그 
기본특징들은 다음과 갈다. 

• 매 마디 는 자체 의 국부디 스크를 가지 는 RS /6000 워 크스테 이 션 이 다. 

• 완전한 AIX(IBM 의 Unix ) 가 매 마디 에 상주한다. 

• 마디 들은 고속망을 통하여 접 속된다. 망대 면부들은 성길게 결 합된다. 즉 마디 는 
국부기 억기 모선 을 통해 서 가 아니 라 자기 의 I/O 모선 을 통하여 망에 접 속된 다. 

IBM 은 이러한 구조가 2가지 주요한 우월성 즉 단순성과 융통성을 가진다고 보고 있 
다. 이 구조는 구성 하기 간단하며 서 로 다른 응용요구들을 만족하도록 구성할수 있 다. 그 
것 은 IBM 에 서 이 미 개 발한 Vulcan 분사기 억 기 기 술과 RS /6000 워 크스테 이 션기 술을 사용할 
수 있 다 (Vulcan 은 IBM 내 부의 다중콤퓨터 연구견본의 이 름이 다.). 

SP 계 렬은 가능한껏 표준적 인 워크스테 이션구성요소들을 사용한다. 전용쏘프트웨어와 
하드웨어는 표준기술이 확장가능체계에 대한 성능요구를 만족할수 없을 때에만 개발된다. 
클라스터구조선택 은 SP 가 4개 의 설계목표 특히 시 장출하시 간과 일 반목적목표를 달성하 
도록 하는 열쇠로 된다. 

융통성 있는 구조 

융통성 있 는 구조를 가지 는것 은 SP 가 서 로 다른 구성 들을 허 락한다는것 을 의 미한다. 
체 계는 몇개의 마디 로부터 수백개의 마디 로 크기 가 확장가능해 야 한다. 마디들은 응용과 
환경 에 대 한 사용자의 요구들을 만족시키 도록 개 별적 으로 (하드웨 어 적 으로 또는 쏘프트 
웨 어 적 으로) 구성 가능해 야 한다. 

전용호상접속 

IBM 은 빛 섬 유통로와 ATM 과 같은 현존 상품적망들이 MPP 에 요구되 는 통신지연과 
대역너비를 제공하는데 적당치 않다고 보고 있다. 그래서 IBM 은 Vulcan 과제에서 개발된 
다단망기 술을 사용하기 로 결 정하였 다. 다단망기 술은 확장가능 SP 체 계 들을 구성하는데 사 
용되는 고성능교환기 ( HPS ) 호상접속으로 되 고 있다. 
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표준환경 

SP 는 표준적 인 열린 분산 Unix 환경 을 사용한다. 이 것은 MPP 가 기계특정의 OS 쏘프 
트웨 어개 발의 힘 든 과제 를 피할수 있게 한다. SP 는 워 크스테 이 션클라스터 이 므로 분산 
Unix 환경에서 리용가능한 체계관리와 일감관리，기억관리，자료기지，통보문넘기기를 위 
한 현존 표준쏘프트웨어 를 사용할수 있 다. 이 모든 쏘프트웨어 는 이 미 IBM 워 크스테 이 션 
의 AIX 조작체 계 에 존재한다. 

고성 능봉사들 

전통적인 분산 AIX 환경에서 효률적으로 실행될수 없는 현존 또는 새로운 응용들을 
위하여 SP 는 고성 능봉사를 제 공한다. 고성 능봉사에 는 다음의것 들이 포함된 다. 

• 고속호상접 속망 ( HPS ) 

• 효률적인 사용자수준통신망규약 (US 규약) 

• 최 량화된 통보문넘 기 기서고 ( MPL ) 

• 병 렬프로그람개 발과 실행환경 

• 병렬파일체계 

• 병 렬자료기 지 (실 례 로 병 렬 DB 2) 

• 고성 능 M ) 본문체 계 


표준프로그람 작성 모형 

일반목적의 목표를 달성 하기 위하여 IBM 은 3가지 령역 에서 류행되 고 있는 프로그람 
작성모형 들을 지 원 하기 로 결 정하였 다. 

• 순차계산 SP 는 병렬콤퓨터이지만 현존의 순차프로그람들을 단일마디에서 변화 
없 이 실 행하게 하여 야 한다. 클라스터 의 구조와 표준환경 때 문에 SP 2 에 서 이 과 
제는 쉽게 달성된다. 전통적 인 C 와 C ++, Fortran 의 제 공을 제외 하고 SP 는 
RS /6000 워 크스테 이 션들을 위하여 개 발한 10000개 이상의 응용들을 그 어 떤 수정 
도 요구하지 않고 실 행할수 있게 한다. 

• 병 렬 기 술계산 SP 는 현재 통보문넘 기 기 및 자료병 렬 ( data - parallel ) 프로그람작성 
( HPF ) 모형들을 지원 한다. 공유기 억 모형 에 대 한 지 원은 계 획 되 고 있 다. 

• 병 렬 상업 계 산 상업응용들을 지 원 하기 위 하여 IBM 은 몇개 의 기본자료기 지와 트 
랜 잭 션감시 부분체 계 들을 병 렬 성 하고 있 다. IBM DB 2 자료기 지 체 계 의 병 렬 판본 
( DB 2 병 렬관 또는 DB 2 PE 라고 부론다.)이 SP 2 에서 실현되 였다. 

체 계 유용성 

SP 체계는 수천개의 상품적부분품들로 구성된다. 이 러한 하드웨 어 및 쏘프트웨어구성 
요소들은 본래 값 눅은 워 크스테 이 션들을 위 하여 개 발된것 이 지 큰 고장허 용체 계 들을 위 
하여 개 발된것 이 아니 다. 그것 들이 유용성량들을 가지 지 않으면 자주 실패하여 전체 체 
계 를 파피 시킨다. SP 는 체 계유용성 을 높이 기 위하여 다음의 기 술들을 채 택하였 다. 
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• 클라스터구조는 매 마디에 하나씩 분리된 조작체계형태를 포함한다. 한 형태의 
고장은 전체 체계를 무능하게 하지 말아야 한다. 이것은 SMP 구조에 비하여 우 
월하다. SMP 구조에서 단일조작체 계형 태는 공유기억기 에 상주하며 OS 의 고장은 
전체 체계를 무능하게 만든다. 

• SP 설계는 전체 체계를 무능하게 만드는 단일고장점들을 체 계적으로 제거한다. 
실례 로 마디 들은 2개 의 망 HPS 와 이써네 트에 의하여 접 속된다. HPS 가 고장나면 
마디 들은 이씨네 트를 통하여 통신한다. 

• 쏘프트웨어 구조는 고장발견과 고장진단，체 계재 구성，고장회 복을 위한 봉사들을 
제공한다. 이 하부구조는 SP 가 깨끗하게 퇴화되도록 한다. 

선택식단일체계영상 

분산체 계 에서 사용자는 개 별적 이 고 분리된 워 크스테 이 션들을 만난다. 진짜 단일형태 를 
가지는 체계 에서 사용자는 거대한 워크스테 이션(실례 로 하나의 조작체계형 태)을 만난다. 

IBM 은 서로 다른 사용자 및 환경의 요구들을 조사하였으며 진짜 단일체계는 실현하 
기 힘 들고 일부 상업응용들에 서 결정 적 인 요구가 아니 라는것 을 발견하였 다. 결과 IBM 은 
2개 의 극단사이 의 타협 을 결정하였 다. SP 체 계 는 단일입 력 자료，단일 파일 계 층，단일 조종점， 
단일일감관리 체 계의 SSI 특징들을 실현하였다.그밖의 요구되 는 SSI 특징들중에서 단일주소 
공간은 SP 체계에서 실현되지 않는다. 이것은 SP 구조와 함께 전진하면서 명백하게 된다. 

10. 3. 2. SP 2 체계의 구성방식 

SP 의 간단화된 론리구조를 그림 10-6 에 서 보여 준다. SP 는 2〜512개 의 마디 들로 구 
성되며 매 마디는 자체의 국부기억기와 국부디스크를 가진다. 매 SP 는 또한 체계 console 
처럼 봉사하는 하나의 R /6000 워크스테 이션을 요구한다. 

체계호상접속 

마디 들은 2개 의 망 즉 전통적 인 이써네 트와 HPS 에 의해 접 속된다. 이씨네 트는 느리 
지만 다음과 갈은 리익을 준다. 

• 이씨네 트는 통신성 능이 중요치 않은 프로그람개 발에 사용될수 있다. 개 발된 코 
드는 제 품실 행 을 위하여 HPS 를 사용할수 있 다. 

• 이써네 트는 HPS 가 고장나면 복제 로 사용된다. 이씨네 트가 없으면 HPS 는 단일 고 
장점 이 다. 

• 이씨네 트는 동시조종의 우월성 을 가지 므로 SP 개 발시 간을 줄이게 한다. HPS 와 
관련된 쏘프트웨어가 개발과 개선중에 있는 동안 이써네트는 체계의 나머지 
부분이 개 발되 고 결 함수정되 며 검 사되 고 사용되 도록 한다. 

• 이씨네 트는 또한 체 계감시 와 초기기동，적 재，검 사，다른 체 계관리 에 사용될수 
있 다. 
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기는 32 KB 의 명령캐쉬와 자료캐쉬，명령 및 분기조종단，2개의 정수단，2개의 류동소수 
점단을 가진다. 여 기서 매 단은 한 박자주기 에 하나의 곱하기 와 하나의 더 하기를 실행할 
수 있 다. 이것은 P 0 WER 2 처리기에 4 X 66.7=267 Mflop/S 의 첨 수속도를 준다. P 0 WER 2 는 
매 박자주기당 6개의 명령을 수행할수 있는 초고속스칼라처리기이다. 짧은 명령관흐름들 
과 정 교한 분기예 측기 술들, 등록기기 술들로 하여 POWER 2 은 하나의 박자주기 에 2개 의 
적 재/기 억，2개 의 류동소수점곱하기 와 더 하기，하나의 지 수증가，하나의 조건분기 를 수행 
할수 있다. 

3가지의 마디형 태 들은 계 층기 억기의 용량과 자료경 로폭， I / O 모선확장홈들에서 차이 
난다. 

실례로 하나의 넓은 마디는 2 GB 까지의 주기 억기와 256 KB 의 자료캐쉬， 
MicroChannel 우의 8개의 M ) 확장홈들을 가진다. 기억기모선은 256 b 폭이며 2.1 GB / S 의 최대 
대 역 너 비 를 제 공한다. 4통로련 합자료캐 쉬 는 자료를 주기 당 4개 의 64 b 연산자의 최 대 속도 
로 2개 의 류동소수점단을 공급함수 있 다. 

좁은 마디 들은 더 작은 최 대 기 억기/캐쉬용량을 가지 며 4개 까지 의 M ) 확장홈을 허 용 
한다. 

하나의 좁은 마디 2는 1 MB (2 MB ) 의 2차캐쉬 를 가질수 있다. 큰 기 억기/캐쉬용량과 
대역너비，초고속스칼라설계，좁은 콤파일러는 SP 가 매 마디에 확대된 성능을 줄수 있게 
한다. 이것은 SP 의 리용이 NAS 성능평가기준을 계산하는데서 왜 다른 MPP 들보다 더 좋 
은가를 부분적 으로 설명한다. 

10. 3. 3. I / O 와 망호상접속 


SP 체 계 에 대 한 M ) 부분체계와 망대 면부들，망호상접속요구들을 아래 에 준다. 


SP I / O 부분체계 

SP I / O 부분체계의 구조를 그림 10-8 에서 보여 준다. I / O 부분체계는 본질적으로 SP 체 
계밖의 다른 기 계 들에 LAN 관문과 함께 HPS 주위 에 구성 된 다. 

SP 마디들은 4개의 부류로 구성될수 있다. 호스트마디(비는 호상작용적 인 프로쎄스와 
마찬가지 로 여 러 가지 사용자가입 대화를 처 리하는데 사용된 다. I / O 마디 들은 주로 대 역파일 


[^][c][c] … [c] 


[노!…[士] [농!…[중 n 


卜回 


그림 10-8. SP I/O 부분체계 (C: 콤퓨터마디， G : 관문마디, H : 호스트마디， I/O : 표준 
또는 병 렬 M) 봉사기마디, LAN : 이써네 트，통표고리， FDDI, H : PPI, ATM) 


493 






봉사기 들과 갈은 I/O 기 능들을 수행한다. 관문에 서 (G) 는 망화기능들을 봉사한다. 계 산마디 
(C) 들은 계산에 리 용된다. 이 4 개의 부류는 겹칠수 있다. 실례 로 호스트마디 는 계산마디， 
I/O 마디，관문마디일수 있다. 

외 부봉사기 를은 파일봉사기 들과 망경 로조종기 들，시 각화체 계 들과 갈은 외 부의 기 계 
들을 SP 에 추가한다. 

망대면부 

매 SP 마디 는 그림 10-9 에 서 보여 주는바와 같이 교환기적 응기 또는 통신적 응기 라고 
하는 망대면부회로를 통하여 MPS 에 접속된다. 적응기는 8MB 의 DRAM 한개를 포함하며 
40MHz 의 Intel i860 극소형 처 리 기 에 의 해 조종된 다. 적 응기 는 MicroChannel 에 련 결 된 다. 
MicroChannel 은 주변장치들을 RS/6000 들과 IBM PC 에 접속하는데 사용된다. 

매 적 응기는 기 억 기 및 절환엔진리단 (MSMU) 이 라고 하는 소편을 거 처서 HPS 에 련결 
된다. MSMU 에서 들어 오는 FIFO 와 나가는 FIFO 에 접속되는 쌍방향련결은 매개가 8b 폭 
을 가지는 2 개의 통로로 구성된다. 2 개의 FIFO 외 에 2 개의 조종상태등록기를 포함하는데 
이 것은 DRAM 을 검 사하고 재 생하는 i860 모선조종기 로도 봉사한다. BIDI 라고 불리우는 
4KB 의 쌍방향 FIFO (매 방향에 2KB) 는 MicroChannel 과 i860 모선을 접속한다. 

적 응기 는 큰 국부통보문완충기 를 요구하는 서 로 다른 규약들을 수용하기 위하여 큰 
(8MB) DRAM 을 사용한다. 마디의 처리기는 프로그람식 I/O 지령들을 통하여 적응기의 
DRAM 과 MSMU 에 직 접 접 속할수 있 다. 그러 나 DMA 를 사용하는 자료전송은 BIDI 를 통 
하여 야 한다. 

한 마디로부터 HPS 에로의 자료전송은 다음과 같이 진행된다. 


Micro Channel 


80-MB/s 

Micro 

Channel 

대면 부 


4-KB BIDI 


L_ j 8-MBDRAM| 




MSMU 






rtoUT-FIFOl - 


| L-DMA | | R-DMA |. — j 40 -Mllz i 86^| 

그림 10-9. SP 통신적 응기 (MSMU : 기 억 기 및 절 환엔진 리단, 
BIDI : 완충기억기， DMA : 직접기억접근엔진) 


160 MB/s 

i860 모선 


마디의 처리기는 보낼 자료를 적응기에 알린다. i860 은 BIDI 의 머리부에 쓴다. BIDI 
의 머 리부는 직접 기 억 기접 근 (DMA) 전송에 필요한 정 보를 포함한다. 머 리부가 BIDI 의 앞에 
도착하면 왼쪽 DMA 엔 진 (L-DMA) 이 넘 겨 받아 그 자료를 그 마디 (Micro Channel) 로부터 
BIDI 로 전송한다. 전송이 끝나면 L-DMA 는 하드웨 어계 수기 를 증가시 킨다. 그다음 i860 은 
또 다른 머 리부를 오른쪽 DMA 엔진 (R-DMA) 에 쓰며 R-DMA 는 자료를 BIDI 로부터 
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MSMU 의 OUT-FIFO 에 전송한다. 그다음 OUT-FIFO 는 그 자료를 HPS 에 전송한다. 

자료수신도 비슷하다. 자료가 도착한 후 MSMU 는 i 860 에 알리며 i 860 은 머 리부에 오 
른쪽 DMA 를 시 작하도록 쓴다. R-DMA 는 IN-FIFO 로부터 BIDI 에 로의 전송을 이 어 받는 
다. 전송이 끝난후 i 860 은 머 리 부를 BIDI 에 쓴다. L-DMA 는 그것 이 BIDI 의 앞에 도착하 
면 머 리 부를 추출하고 자료를 BIDI 로부터 MicroChannel 로 전송한다. 적응기의 구조는 동 
시적인 동작을 허용한다. 

실례 10.3. MHPCC 의 400개 마디 SP 2 다중를퓨터 

세계에서 가장 큰 SP 2 구성들중 하나를 그림 10-10 에서 보여 준다. 



HPS- 고성능1환기, WAN; 광- 


지역 망 

ᄃ T3 선 (45 Mbps), 

선들은 10-Mbps 이써 네트접속들이 다. 

그림 10-10. Maui 고성능콤퓨터쎈터 에 설치 한 400 개 마디 IBM SP2 체 계 


이것은 1994년에 Maui 고성능를퓨터쎈터 ( MHPCC ) 에 설 치 한 400개 마디 클라스터 이 다. 
MHPCC 는 하와이섬의 Maui 섬에 위 치하고 있 다. 

다른 더 큰 체계는 Conell 리론쎈터의 512개 마디 SP 체계이다. HPS 이외의 모든 마디 
들 또는 2중 FDDI 고리 와 10 Mbps 이 써 네 트에 의 해 접 속된 다. FDDI ( 100 Mbps ) 고리 들은 고유 
용성에 필요한 하드웨어여유를 제공한다. 병렬응용에서 통보문통신은 3개의 선택 즉 
HPS , FDDI , 이씨네 트를 가진다. 체 계관리 와 유용성，파일연산들, 망접 근들과 같은 다른 
모든 통신들은 FDDI 나 이씨네 트망들을 통하여 진행할수 있다. 이 SP 2 체 계 는 많은 고속 
과학계 산과 대 규모단일 처 리응용들에 적 용되 였 다. 
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10. 3. 4. SP 체계쏘프트웨어 

SP 체 계쏘프트웨 어계 층은 그림 10-11 에서 보여 준다. 이것은 핵 심부 IBM AIX 조작체 
계 이다. SP 는 다음과 같은 대 부분의 Rs /6000 워 크스테 이 션환경 을 재 사용한다. 

• 10000개이상의 순차응용들 

• 자료기 지관리 체 계 (실 례 로 DB 2) 

• 직렬 트랜 잭션 처리 모니터들(실례로 CICS /6000) 

• 체계관리와 일감관리 

• Fortran , C , C ++ 콤파일러들 

• 수학적 및 공학적 서고들(실 례 로 FSSL ) 

• 표준 AIX 조작체계 


웅용부분체 계 들 (자료기 지, 르랜 잭 션모니 터 들: 등) __ 

__체계 관리 | 일감관리 | PE | 콩 4 일 러들, 등 

대 역 봉사들 ( 단일 체 계 형 태 제 공) _ - _ 

용성 봉사들 ^ 

" 고성능봉사들 | 표준조작체계 ( AIX ) 

표준 RS /6 Q 00 하드웨 어 (처 려 기 들, 기 억 기 , I/O 장치 골 , 적 응기 들) _ 

그림 10-11. SP 체 계쏘프트웨 어계 층 (PE: 처 러환경 ) 

SP 체 계는 어떤 새 로운 쏘프트웨어를 첨 가하고 확장가능병 렬클라스터체계 에 요구되 
는 일부 현존 쏘프트웨어를 개선하기만 한다. 


병렬 환경 ( PE ) 

AIX PE 는 그림 10-12 에서 보여 주는바와 같이 자기의 병 렬프로그람을 개 발하고 실 
행하는 사용자들을 위한 가동환경 이 다. 그것 은 4개 의 구성 요소 즉 병 렬 조작환경 ( POE ) 과 
통보문넘 기 기서고 ( MPL ), 시 각화도구 ( VT ), 병 렬결 함수정기 ( pdbx ) 를 가진다. 


병렬 조작환경 ( POE ) 

POE 는 병렬프로그람들의 실행을 조종하는데 사용된다. 그 구조를 그림 10-12 에서 보 
여 준다. 실행은 SP 또는 SP 마디 에 접속된 RS /6000 워크스테 이 션인 원천마디 에서 실행하는 
분할관리 자의 프로쎄 스에 의해 조종된다. 원천마디 는 사용자가 병 렬프로그람을 호출하는 
곳인데 병 렬 프로그람은 SP 의 를퓨터 마디 의 하나 또는 그이 상의 과제 로서 실 행한다. 

원천마디는 표준 Unix I 八)장치들(실례로 stdin , stdout , stderr ) 을 제공한다. 그것은 
LAN (실례 로 하나의 이씨네 트)을 통하여 콤퓨터마디 들과 표준 I / O 통신을 수행한다. 실례 
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그림 10-12. IBM 콜라소詞에 구성된 PE 와 POE 


로 사용자는 원천마디의 건반에서 Con 仕 o 卜 C 를 눌러 모든 과제들을 끝낼수 있다. printf 명 
령문에 의한 출력 은 원천마디 의 현시장치 에 표시 된다. 


MPL 과 MPI 

통보문넘 기 기통신은 특정한 MPL 함수들을 HPS 혹은 이써네 트를 통해 실행 함으로써 
실현된다. 이 서 고는 프로쎄 스관리 와 묶기 ( grouping ), 점 대점통신，통신을 위 한 총 33개의 
함수를 제공한다. IBM SP 는 또한 본래부터 실현된것을 포함하여 MPI 의 서로 다른 판본 
들을 지원한다. 

고성 능봉사들 

IBM SP 의 클라스터 구조는 본래 RS /6000 워 크스테 이 션들과 TCP/IP 망에 기 초한 분산 
체 계 들을 위 하여 개 발된 표준적 인 off - the-shelf 쏘프트웨 어 의 즉시 적 인 사용을 가능하게 
한다. 그밖에 SP 는 전통적 인 분산체 계 환경 에서 는 효률적 으로 실행할수 없는 새 로운 응용 
들과 부분체 계 들을 위한 여 러 가지 고성 능봉사를 제 공한다. 이 봉사에 는 고성 능통신부분체 
계 와 고성 능파일체 계，병 렬서고들, 병 렬자료기지，고성 능 M ) 가 포함된다. 여 기서 는 이 봉 
사들중 몇 개 만을 론의 한다. 

SP 는 2개 의 통신규약 즉 핵 심 부공간에 서 실 행하는 IP 에 기 초한 규약(실 례 로 UDP/IP 
또는 TCMP ) 과 …라고 부르는 사용자공간의 규약을 지 원한다. 두 규약은 HPS 나 전통적 
인 망(실례 로 이씨네 트)에서 사용된다. 

HPS 에서 IP 와 US 규약들의 성능을 표 10-6 에서 보여 준다. US 규약은 더 좋은 성능을 
가진다. 그러 나 SP 는 US 규약을 사용하는 매 마디 에 하나의 과제 만을 허 용한다. 한편 매 
마디의 다중과제들은 HPS 를 공유하는데 IP 를 사용할수 있다. 


표 10-6 __ SP 에서 2 개 규약의 성능 


규약 

지 연 (ms) 

대 역 너 비 (MB/s) 

UDP/IP 

277 

10.8 

US 

39 

35.5 


497 









고성능통신을 요구하지 않는 응용들에 대하여 IP 사용은 더 좋은 전체적인 체계리용 
을 가져 온다. 


병렬 I / O 파일체계 

SP 고성능파일체계를 PIOFS(Parallel I/O File System ) 라고 부론다. 이것은 대부분의 응 
용들과 체 계 유털 리 터 들을 위 한 POSIX-read 와 write , open , close , Is , cp , mv 와 같은 Unix 연 
산들을 순차 Unix 체계에서와 같이 동작시킨다. 그것은 AIX 에서 2 32 대신 2 M B 까지의 큰 
파일크기를 지원한다. 전통적인 Unix 파일체계대면부를 따르는외에 PIOFS 는 파일에서 병 
렬 분산과 병 렬연산을 가능하게 하는 병 렬 대 면부를 제 공한다. 

IBM 은 SP 우에 서 다른 클라스터 가동환경 에 서 만큼 실 행 하는 DB 2 병 렬 판이 라고 부르는 
병 렬자료기 쏘프트웨 어 프로그람을 개 발하였 다. 이것은 공유 없는 구조에 기초하며 함수이동 
기 술을 사용한다. 자료기 지 는 여 러 마디 들에 분산되 며 자료기 지 함수는 자료가 상주하는 마 
디로 이동된다. DB 2 병렬판은 기계크기와 문제크기에 맞게 확장가능하다. 이것은 수백개의 
마디 에 서 실 행할수 있으며 테 라바이 트의 자료를 포함하는 큰 자료기 지 를 다룰수 있 다. 


유용성 봉사 

SP 체 계 는 마디 들에 서 실 행하는 데 몬들의 모임 을 통하여 쏘프트웨 어유용성하부구조 
를 계공한다. 심 장박자데몬들은 어 느 마디 들이 살아 있는가를 가리키 는 심 장박자통보문 
들을 주기 적 으로 교환한다. 성 원봉사마디들과 프로쎄 스들이 일정한 무리의 부속물로써 
식별되도록 한다. 

마디고장과 닫기，재시동에 의해 생긴 성원변화사건에서 통지봉사들은 활동성원들을 
그 사건에 통지하는데 사용되 며 다음에 활동성원들이 작업 을 계 속할수 있도록 회 복절 차 
들을 조화시 키 기 위하여 회 복봉사기 들이 호출된 다. 


대 역 봉사 

여 러 대 역 봉사들은 단일 체 계 영 상에 선택 된 형 태 들을 제 공한다. 외 부의 체 계 자료저 장 
소는 체 계의 마디들과 교환기들，현재의 일감들에 대 한 체 계정 보들을 유지한다. SDR 는 
체 계의 부분이 고장날 때 다른 부분들에 영 향을 주지 않고 그 체 계를 재구성하는데 쓸모 
있다. SDR 의 내용들은 체계를 고장전의 상태로 복구할수 있다. 

대 역망접근은 HPS 를 통하여 TCP/IP 와 UDP/IP 를 지원함으로써 실현된다. 단일파일체 
계 는 망파일 체 계 ( NFS ) 또는 안드레 이파일 체 계 ( AFS ) 를 통하여 제 공될 수 있 다. SP 는 망파 
일체 계 들 (NFS 또는 AFS ) 외 에 대 역 적 인 디 스크접 근을 위 한 가상공유디 스크 (Virtual share 
disk , VSD ) 를 제공한다. 

VSD 는 NFS 보다 더 좋은 성 능을 가진 다. VSD 는 AIX 론리볼륨관리기 (Logical Volume 
Manage ) 의 최 상위 에 위 치 하는 장치 구동프로그람층이 다. 마디 의 프로쎄 스가 국부적 으로 
접속된 공유디스크에 접근하려고 하면 VSD 는 그 요청을 마디의 LVM 에 직접 보낸다. 
프로쎄 스가 원격공유디 스크에 접 근하려 고 하면 VSD 는 HPS 를 통하여 자료를 직 접 원격 
디 스크의 VSD 로 보낸 다. 그다음 원격디 스크의 VSD 는 자료를 원격마디 의 LVM 에 로 보 
낸다. 






2 개 의 마디형 태 즉 새 로운 넓 은 마디 와 SMP 마디 가 그림 10-7 의 본래 의 좁은 마디， 
좁은 마디 2, 넓은 마디에 보충된다. 

새 로운 마디 형 태 

새로운 넓은 마디는 단일 한 POWER2 초고속소편 (P2SC) 처리기로 구성된다. P2SC 처리 
기는 본래의 8개 소편 POWER2 처 리기 를 단일한 소편으로 통합하고 160KB 의 내 장캐 쉬 와 
15000000개의 3극소자를 포함한다. 처 리기박자주파수도 66.7MHz 로부터 135MHz 로 높아 
진 다. 

SMP 마디 (high node 라고도 한다.)는 2〜8개 의 박자가 112MHz 인 PowerPC 604처 리 기 
들로 구성된다. 매 604처 리 기는 하나의 32KB 소편내 장 1차캐쉬 와 하나의 1MB 소편외 장캐 
쉬를 가진다. 


특별한 SP 구성 

상업용구성 에서 SP 체계는 16개까지의 PowerPC SMP 마디들을 포함하여 128개까지의 마 
디들을 가진다. 전용구성에서 기계크기는 512개 마디로 늘일수 있다. 

HPS 의 기술은 다중교환기망구조를 사용하지만 련결대역너비는 40MB/S 로부터 
150M/S 로 개선된다. 이것과 정합시키기 위하여 HPS 에로의 마디 I/O 대면부의 대역너비는 
80MB/S 로부터 160MB/S 로 개선된다. 


쏘프트웨 어 개 선 

쏘프트웨어 의 개 선은 보충적 인 2개 의 체 계쏘프트웨어 부분을 포함한다. 고유용성클 
라스터 다중처 리 (High Availability Cluster Multi Processing, HACMP) 는 쏘프트웨 어 의 복제 
와 고장회 피 유용성 기 능들을 제 공한다. 병 렬 체 계 지 원프로그람 (Parallel Systems Support 
Programs) 쏘프트웨 어는 사용자와 암호관리，일감회계，체계 감시，체계 분할과 같은 체계관 
리 를 헐하게 한다. 


IBM/LLNL Blue Pacific 

에 네 르기 집 단은 IBM 및 Lawrence Livermore 국가연구소와 테 라 flops 초고속틈퓨터 를 만 
들데 대한 계약을 체결하였다. 이 체계는 11.3 에서 론의한다. 명백히 그것은 SP(Scalable 
Parallel) 기술을 더욱 확장할것이다. 체계가 현재의 SP 구조보다 우수하게 단일체계 영상과 
분산기억기연산들에 대한 더 많은 지원을 가짐으로써 클러스터개념을 더욱더 추구할것이 
라는것이 추측된다. 


10. 4. Digital 의 TruCluster 

DEC TruCluster 는 Unix 클라스터 들중의 하나이 다. 마디 는 Digital Unix 를 실 행 하는 단 
일처 리기 또는 다중처 리기일수 있다. 호상접속망은 GigaSwitch 또는 기 억기통로일수 있다. 
이 부분에서 는 AlphaSever 8400마디 들과 기 억기통로호상접속을 사용하는 TruCluster 를 론 
의 한다. 
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10. 4. 1 . TruCluster 의 구성방식 


TruCluster 의 구성방식을 그림 10-13 에서 보여 준다. 이 구조는 공유 없는 방법들과 
공유디 스크방법 들을 결 합한다. 



기억기통로 ( MC ) 

그림 10-13. TruCluster 망의 구조 


TruCluster 는 를퓨터 또는 자료기지봉사기 로 설계된다. 이 것은 SMP 마디 들과 혁 신적 
인 기 억기통로호상접 속，효률적 인 통신과 선택 된 단일체 계영 상，쏘프트웨어의 유용성 및 
확대 가능성지원을 위한 반사기억기기구로 특징 지 어 진다. 서 로 다른 구성 들은 서 로 다른 
사용자의 요구를 충족시킨다. 실례로 공유디스크들은 공유 없는 구조를 창조하도록 개별 
적 인 마디들에 로 분산될수 있다. 


기 억 기통로 

그림 10-13 의 클라스터체계는 3개의 분리된 클라스터폭 (Cluster wide ) 의 호상접속들을 
가진다. 이써 네트는 의뢰기워크스테 이션들과 PC 들，말단들을 TruCluster 에 접속하는데 사 
용된다. 사용자의 가입과 명 령들，응용들은 자기의 표준망으로부터 TruCluster 에 접근한다. 
마디 가 공유디 스크들의 파일들에 접 근할수 있도록 하기 위하여 여 러개의 SCSI 모선들이 
사용된다. 매 마디는 자체의 국부디스크들을 가질수 있다. 

Encore Computer Systems 와 Digital Equipment 가 공동개발한 기억기통로 ( MC ) 는 높은 
속도를 가지며 통보문넘기기와 동기화에 대한 지원을 담당한다. 이 구성은 이전에 처 
리하지 못했 던 다음의 문제 들을 평 가하는데 쓸모 있다. 

• MC 와 관련된 쏘프트웨어 를 어 떻게 사용하면 동기 화와 통보문넘 기 기를 위 한 공 
유기억기(반사기억기)의 제한된 형식을 실현하는가? 

• 분산자물쇠관리기를 어 떻게 사용하면 디스크 공유와 대등하게 하겠는가? 

• SMP 마디들의 클라스터를 어떻게 프로그람작성하는가? 


501 



표 10-8 _ DEC TruCluster 의 구조파라에터들 


구조파라메 터 

하나의 마디 

하나의 TruCluster 

처리기의 수 

12 

96 


10Gflop/s 

80Gflop/s 

소편외장캐쉬 

8MB 

64B 

최대기억기 

28GB 

224GB 

기 억 기 모선 집 합대 역 너 비 

2.1GB/S 피크， 

16.8GB/S 최 대 


1.8GB/S 유지 

14.4GB/S 유지 


192GB 

1.5TB 

I/O 통로들 

12 개 PCI 모선 

96 개 PCI 모선들 

I/O 확장홈들 

144 개 PCI 확장홈들 

1152 

총 I/O 대 역 너 비 

1.2GB/S 

9.6GB/S 

마디 대 마디최대대역너비 

N/A 

lOOMB/s 


마디 구조 

매 마디 는 DEC AlphaServer 8400 SMP 체 계 이 다. 

구조적특징 들은 표 8-1 에 서 보여 준다. AlphaServer 의 블로크도식 은 그림 10-1 
준다. AlphaServer 8400 마디 는 9 개 접 속홈기 억기 모선을 가진다. 매 접 속홈은 ^ 
모둘 또는 기 억기모둘, I/O 모둘을 유지할수 있다. 하나의 마디는 적 어도 하나의 
과 하나의 기 억기모둘，하나의 I/O 모둘로 구성되 여 야 한다. 6 개까지의 CPU 모둘그 
의 기억기모둘， 3 개까지의 I/O 모둘이 있을수 있다. 

CPU 모둘은 2 개의 437MHz Alpha 21164 처리기를 포함한다. 매 처리기는」 
S 의 1 차캐쉬 1 개와 96KB 의 2 차캐쉬 1 개 를 가진다. CPU 모둘에 설 치된 매 처 도 
■의 4MB 외 장형 3 차캐 쉬 가 있 다. 기 억 기 모둘은 4GB 4 통로끼 움식 SIMM 기 억 기 와 
수 있다. 


어 hfim hm | ■들 









I/O 모둘은 매개가 12개 확장홈을 가지는 표준 PCI 모선 또는 Digital XMI 모선의 4개의 
I/O 통로들을 조종한다. PCI 모선과 XMI 모선의 결합은 허용된다. 144개까지의 I/O 확장홈들 
이 SCSI 디 스크와 CD-ROM 구동장치，이씨네 트적 응기 들과 같은 여 러 가지 표준 FO 장치 들을 
접속한다. 

기억기통로의 적응기는 PCI 의 확장홈에 접속된다. 

기 억 기 모선은 CPU 박자주파수의 1/5인 87.4 MHz 로 박자화된 동기모선 이다. 모선자 
료폭은 256 b 또는 32 B 이 다. 최 대 대 역 너 비 는 32 X 87.4=2796 MB/S 가 한계 이 다. 내재 적 인 
하드웨 어 부가처 리 들을 고려 하면 최 대 대 역 너 비 즉 절 대 로 릉가할수 없는 대 역 너 비 는 2 GB/s 
이다. 기억기모선은 대역너비를 1.8 GB/S 까지 확대하기 위하여 분산트랜잭션과 분리된 주소/ 
명령모선 및 자료모선과 같은 기술들을 리용한다. 

1 0. 4. 2. 기억기통로호상접속 

기 억기통로는 믿음성 있고 강력하며 효률적 인 클라스터호상접속을 제공하기 위하여 
설계된다. 특히 그것은 다음의 설계요구를 가진다. 

• 높은 속도 lOOGB / s 의 1통로통보문대역너 비와 1.5化이 하의 지 연， 0.5” 이하의 처 
리 기 부가처 리 

• 오유처 리 작업중교체 ( hot - swap ) 능력과 망통신오유로부터의 오유검사 및 회복지원 

• PCI 접속성 공업표준 PCI 모선에로의 대면부 

5 ；us 이 하의 통보문지 연 특히 500 ns 의 처 리 기부가처 리를 달성 하기 위 하여 통신쏘프트 
웨어는 완전히 사용자수준에서 실행되여야 하고 통신규약은 령복사규약이여야 하며 쏘프 
트웨어 는 검 사합계 산을 하지 말아야 한다. 

왜냐하면 현재의 단일처리기가 SMP 마디들에서 체계호출에만도 5 //S 이상 소비할수 
있으며 특히 짧은 통보문들에 대 하여 기 억기복사와 검 사합은 비 용이 많이 들기때 문이 다. 
이것은 사용자수준의 통신을 위하여 호출되며 기 억기통로만을 개 별적 인 마디들의 가상주 
소공간으로 넘기고 하드웨어가 오유처리를 잘하도록 한다. DEC 는 Encore 의 반사기 억 기 
술을 기 억기통로의 기초로 확장하였 다. 


반사기 억 기 (reflective memory) 

반사기억기의 개 념은 그림 10-15 에서 설명한다. 

반사기억기는 다음과 같이 동작한다. 접속은 한 마디의 가상주소폐지 로부터 다른 마 
디의 가상폐지로 기억기통로주소공간을 통하여 확립된다. 실례로 접속 2는 마디 3의 가 
상페지 묘를 마디 1의 가상페지 묘와 마디 2의 가상폐지 C , 마디 2의 가상페지 D , 마디 3 
의 가상페 지 F , 마디 4의 가상페 지 I 에 접속한다. 마디 2가 페 지 표에 쓰면 기 억기통로하 
드웨어는 쓴 내용들을 페지 묘에 접속된 모든 가상페지에 자동적으로 넘기기한다. 다시 
말하여 국부가상페지 에 로의 쓰기 는 접 속된 모든 국부 또는 원격 가상마디 에 반사된다. 후 
에 마디 1이 페지 B 를읽을 때 마디 2에 의하여 페지 묘에 쓴 자료를 가져 온다. 반사기 
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억기는 다음과 갈은 특징들을 가진다. 

• 첫째 로，그것은 가상주소에 기초한다. 자료는 한 가상페지로부터 다른 가상페지 
로 직접 통신한다. 이것은 령복사를 실현하며 페지표를 유지하고 주소변환을 수 
행 하는 기 억 기통로적 응기들을 요구한다. 

• 둘째로，그것은 사용자수준통신기구이 다. 접속시동은 핵심부호출을 요구한다. 그 
러나 비용이 많이 드는 접속확립은 한번만 수행되면 된다. 같은 접속은 그 어떤 
보충적 인 체계호출을 요구함이 없이 많은 통신을 수행하는데 사용될수 있다. 

• 셋째 로，통신립 도는 32 B 자료블로크수준에 있 다. 접 속이 페 지 수준에 서 확립 되 여 
도 자료통신들은 32 B 블로크들로 수행된다. 하드웨어는 전체 페지를 한번에 전 
송하지 않아도 된다. 

• 넷 째 로，통신들은 보통의 store 와 load 지 령 에 의 하여 수행 된 다. 사용자가 통보문 
넘기기쏘프트웨어로 통신할수 있다 해도 사용자는 그렇게 하려 하지 않는다. 

• 다섯째 로，접속들은 점대점(접속 1) 또는 방송(접속 2)，집 단내 방송(접속 3) 일수 
있 다. 

• 여섯째로, 접속들은 본질적으로 한방향이다. 하나의 가상폐지는 전송과 수신을 
동시 에 할수 없 다. 한 마디 가 갈은 접속으로부터 송신과 수신을 요구하면 그것 
은 분리된 2개의 가상폐지를 사용하여야 한다. 

• 일곱째로, 하나이상의 마디들이 같은 접속에 송신하는것(실례로 접속 3) 은 허용한 
다. 기 억기통로쏘프트웨어 는 자료일 치성 을 담보하기 위한 동기 화명 령 들을 제 공 
한다. 


접 속 2 접 속 3^ 



기 억기 통로를 통한 통신 

접속이 어떻게 확립되며 32 B 자료블로크가 어떻게 통신되는가를 더 상세히 보자. 기 
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통로는 마디의 프로쎄스들이 자기의 가상주소공간들의 페지를 넘길수 있는 512 MB 의 
주소공간(그림 10.15 의 MC 주소공간)을 지원한다. 매 마디에서 이 MC 주소공간은 기 억 
.로적 응기의 512 MB PCI I/O 주소공간창문으로 직접 넘 겨 진다. TraCluster 는 8 KB 의 페 
.기를 가진다. 이것은 기 억기통로가 64 K 개의 서 로 다른 접속들을 확립하는데 64 K 개 
비 지 들을 제 공할수 있 다는것 을 의 미한다. 

그림 10.15 의 접속 1이 어떻 게 확립되 는가를 아래 에서 설명한다. 그림 10.16 을 참조하 
i 속 1을 확립하는데 다음과 갈은 걸음들이 실행된다. 

• 응용은 클라스터봉사서고의 함수를 호출하며 이 함수는 접 속을 위하여 MC 주소 
공간의 한개 폐 지 (폐 지 X )를 배 정한다. 

• 마디 1의 프로쎄스(송신마디)는 자기의 주소공간의 가상페지 A 를 페지 표에 련결 
하기 위한 서 고함수를 호출한다. 이 함수는 가상폐 지 A 를 I/O 공간의 물리 페 지 Q 
로 넘기는 마디의 가상 대 물리넘기기표 ( map ) 에 하나의 입력자료를 만든다. 이 
것 은 MC 적 응기 의 페 지 조종표 (page control table , PCT ) 에 의 하여 MC 주소공간의 
폐지 X 로 직접 넘겨 진다. 이 함수는 또한 접속이 가능한 대응하는 PCT 입력 자 
료에 서 마디 1에 의한 점대 점 통신을 가리킨다. 

• 마디 2( 수신마디 )의 프로쎄스는 자기 의 주소공간의 가상페 지 (페 지 피를 페 지 X 
에 련 결하기 위한 서 고함수를 호출한다. 이 함수는 가상폐 지 A 를 국부물리 기억 
기의 페지 S 로 넘기는 마디의 가상 대 물러넘기기표에 하나의 입 력 자료를 만든 
다. 이 것 香 MC 적 응기 의 PCT 에 의하여 MC 주소공간의 페 지 X 로 직 접 넘 겨 진 다 


MC 적응기 



그림 10-16. 기억기통로의 통신기구 


더우기 이 물리폐지 S 는 바뀌지 않도록 고정되며 MC 적응기의 물리 DMA 표는 접속 
X 로부터 페지 S 에로 자료를 산란 ( scatter ) 시 키도록 만들어 진 다. 이 함수는 또한 접 
속이 가능한 대 응하는 PCT 입 력 자료에 서 마디 2에 의 한 점 대 점 수신을 가리 킨 다. 


페 지 조종표 (PCT) 





의 조종비 트들을 포함한다. 

• 전송 또는 수신가능 

• 방송 또는 집 단내 방송，점 대 점 

• 국부복사만들기 

• 모든 수신마디들에서 쓰기도착에 대 한 하드웨 어응답 

• 쓰기가 목적지마디에 도착한후 목적지마디를 차단 

블로크자료전송 

접 속 표가 확립 된후 마디 1 로부터 마디 2 에 로 32B 자료블로크를 전송하기 위하여 다 
음의 걸음들이 실행된다. 

• 마디 1의 프로쎄 스는 가상페 지 A 의 상대주소에 련 속적 인 쓰기 (기 억 )들을 수행하 
며 이것은 물리페지 Q 로 변환된다. Q 는 I / O 공간이므로 쓰기들은 모든 캐쉬들을 
무시 한다. 그러 나 쓰기 들은 32B 쓰기 완충기 들중의 하나에 서 통합된 다. 처 리 기 가 
쓰기완충기 를 flush 하면 가득찬 32B 쓰기 는 PCI 모선으로 전송되 며 MC 적 응기 가 
선택된다. 

• 적 응기 는 PCI 의 쓰기 를 하나의 MC 파케 트로 교갑화하기 위하여 PCT 의 정 보를 
사용한다. MC 파케 트는 32B 의 자료와 목적 지 를 식 별하는 하나의 머 리부， 32b 
CRC 를 포함하는 하나의 꼬리부로 구성 된 다. 그다음 적 응기 는 그 파케 트를 망으 
로 내보낸다. 

• 마디 2 의 적 응기 는 파케 트를 받고 MC 머 리부와 꼬리부를 벗 긴 다음 PCI 모선 에 
보낸 다. PCT 와 DMA 표는 들어 오는 자료가 물리 기억 기 의 폐 지 S 로 가는것 이 라는 
것 을 결 정한다. 

• 다음에 마디 2의 프로쎄 스가 가상폐 지 E (물리 페 지 S 를 가리킨다)를 읽 으면 그것 
은 새로운 자료를 얻는다. 

기억기통로하드웨어는 많은 오유처리 및 흐름조종능력들을 제공한다. 하드웨어는 매 
우 낮은 전송오유률을 가질뿐아니라 모든 통보문쓰기에 대한 자동오유발견도 할수 있다. 
그것 은 활성교환지원과 하드웨 어 에 기 초한 충분한 흐름조종을 제 공한다. 그것 은 오유조 
건에서도 엄격한 통보문쓰기순서를 진행한다. 하드웨 어는 또한 하나의 고속자물쇠명 령을 
제 공한다. 

10. 4. 3. TruCluster 프로그람작성 

TruCluster 프로그람작성 을 위한 쏘프트웨어 구조를 그림 10_17 에서 설명한다. 말단사 
용자병 렬 응용들은 표준 C 나 Fortran, 고성 능 또는 MPI 서 고함수들을 호출한다. 이 서고들모 
두는 만능통보문넘 기 기 (Universal Mess Fortran(HPF) 언 어 들을 사용하여 개 발되 였 으며 병 행 
과 통보문넘 기 기를 특정 화하기 위 하여 PVM age Passing, UMP) 층의 최상위 에서 실현된다. 
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UMP 의 기 본기 능은 기 억기통로와 SMP 마디 의 공유기억기 구조，미 래의 통신 및 호상접 속 
들에서 사용될수 있는 통일적인 통보문넘기기 API 를 제공하는것이다. 



병 렬 옹 용들 

(C, Fortran, 

둥.) 

PVM 

MPI 


HPF 


a 반 통보 문 통과 

(UMP) 


공유기 억 기 

(SMP 마디에 포함됨) 

기 억 기 륭 로 API 

MC 핵심부부분체게 

다른 전송들 


저수준 MC 

함수들 



그림 10-17. TruCluster 프로그람작성 을 위한 쏘프트웨어 구조 


기 억 기 통로쏘프트웨 어 지 원 

검 은 통은 기 억 기 통로쏘 프트웨 어 이 다. 그것 은 하나의 사용자수준 MC API 와 핵 심 부수 
준쏘 프트웨 어 의 2개 층을 포함한다. 말단사용자들은 PVM 이 나 MPI , HPF 만을 사용하여 야 
하며 낮은 층들은 사용하지 말아야 한다. 

체 계프로그람작성 자들은 물론 UMP 를 사용해 도 된 다. MC API 는 지 어 3부류체 계쏘 
프트웨어개 발자들에 게 도 너 무 저 수준이 다. 

MC API 는 12개 의 함수들로 구성 된 다. 4개 의 함수들은 MC 접 속들을 창조하고 파괴하 
는데 사용된 다. 또 다른 4개 함수들은 대 역 MC 공간에 서 회 전 ( spin ) 자물쇠 들을 관리하는데 
사용된다. 2개 는 기 억기통로오유들을 검 사하는데 사용된다. kill 함수는 클라스터원격마디 
의 특정한 프로쎄 스에 Unix 신호를 보낸다. 마지 막으로 클라스터 의 마디 수와 호스트이 름 
들을 얻는 함수가 있다. 

통신 이 보통 store / load 지 령 들에 의 하여 실 현되 므로 송신/수신함수들은 없 다는데 주의 
하여야 한다. 

UMP 층은 표 10-9 에 기록한바와 같이 12개의 함수들을 포함한다. 프로그람작성자의 
관점 에서 UMP 는 TCP 와 비 슷하다. UMP 의 연산들은 통로 ( TCP 에서 는 접속이라고 한다.) 
라고 부르는 2중 점대점 련결들에 기초하고 있다. 통로는 1개 프로쎄스쌍사이의 쌍방향통 
신을 제 공하기 위하여 사용된 한방향완충기 들의 쌍이 다. 이 프로쎄 스들을 통로의 끝점 이 
라고 부론다. 2개의 프로쎄스는 클라스터의 같은 마디에 상주할수도 있고 클라스터의 서 
로 다른 마디들에 상주할수도 있다. 

통로들과 UMP 연산들은 단일 마디 의 공유기 억기 공간이 나 MC 주소공간에 서 실 현될 수 
있 다. 공유기억기 실현은 더 좋은 성 능을 가지 면서 도 UMP 의 사용자들에 게 투명하다. 

프로쎄 스는 한개 과제 쌍사이 의 통로를 열 기 위 하여 ump _ open 을 호출한다. 그러 나 두 
번째 프로쎄 스가 또 같은 통로를 열 때 까지 그 통로는 확립 되 지 않는다. 첫번째 프로쎄 
스는 두번째 프로쎄 스에 의하여 통로접 속이 완성되 였 다는 사건을 기 다리 기 위하여 
ump _ listen 과 ump _ wait 를 사용할수 있다. 
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10. 4. 4. TruCluste 『체계쏘프트웨어 


TmCluster 체 계 는 공유 SCSI 모선들을 통하여 접 속한 국부마디 디 스크와 대 역 디 스크를 다 
포함한다(그림 10-13 을 참고). TruCluster 체 계 쏘프트웨 어 (Cardoza et al ..[12 刀을 참고)는 마디 
들을 감시 하고 구성 요소고장사건의 회 복절 차들을 자동적 으로 초기 화함으로써 고유용성 을 
지 원한다. 그것 은 병 렬 자료기 지 를 지 원하여 자료기 지 응용들이 장치 가 국부장치 이 건 원격 
장치 이건 상관없 이 생디 스크와 다른 I/O 장치 들에 동시 에 접 근할수 있게 한다. 그것 은 
PVM 과 MPI , HPF 확장들을 가지는 C 와 Fortran 어 로 작성된 병 렬프로그람들을 지 원한다. 

TruCluster 체 계 쏘프트웨 어 는 다음과 같은 요소부분체 계 들을 포함한다. 

분산자물쇠 관리 자 (Distributed Lock Manager, DLM) 클라스터 폭의 접 근이 디 스크파 

일 들과 갈은 공유자원들과 동기 를 맞추기 위한 쏘프트웨어 서 고함수들을 제 공한다. 

접속관리자 클라스터성원의 행로 즉 얼마나 많은 마디들이 그 클라스터를 구성하는 
가를 보존한다. 그것 은 또한 콜라스터마디 들의 모든 쌍사이 의 통신경 로를 확립 하고 유지 
한다. 

분산생 디 스크 (Distributed Raw Disk, DRD) 생 디 스크에 기 초한 사용자수준의 응용(실 
례로 분산자료기지관리체계，트랜잭션처 리모니 터)은 클라스터의 어디에 물리기억기 가 있 
는가에 상관없이 클라스터 에서 실행할수 있게 한다. 이것은 응용들이 다수의 마디들로부 
터 RAID 디스크들을 포함하는 기억매체에 병렬로 접근할수 있게 한다. 

대역 오유기록기 (Global Error Logger) TmCluster 쏘프트웨 어가 하나이 상의 체계들 
에로의 TruCluster 환경에서 일어 나는 사건들에 대한 통보문들을 기록하게 하여 
TmCluster 관리 자들이 그러 한 사건들이 일 어 날 때 중요한 문제 들에 대 한 통지 를 받을 
수 있게 한다. 

콜라스터 모니 터 체 계 관리 자의 그라픽 스사용자대 면부이 다. 클라스터 모니 터 는 클라스 
터 에서 유용성 과 접 속성의 현 상태 와 같은 클라스터구성 을 현시 하는데 사용될수 있다. 관 
리 자는 단일위 치 에서 전체 클라스터체계를 관리 하기 위하여 관리도구들을 호출할수 있다. 

개선된 POLYCENTER 파일체계 (Advanced File System, AdvFS) 이것은 유용성을 지 
원하기 위한 실행기 록식국부파일체 계 이 다. 트랜잭 션실행기 록을 사용하여 AdvFS 는 예 상 
밖의 전원상태 로 하여 재 시 동후에 시 간단위 가 아니 라 초단위 로 파일령역 들을 회 복할수 
있 다. 
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10.5. Berkeley NOW 프로젝트 

Berkeley 캘 리 포니 아대 학의 NOW (워 크스테 이 션망)과제 는 전용클라스터 에 도 응용할수 
있는 기 업 클라스터기 술개 발을 목적 으로 하고 있 다. 

이 기 술들은 큰 규모의 콤퓨터 를 구성 하기 위 하여 작고 대 량생 산된 상업 체 계 들을 
리용한다. 동기 와 목적 은 콜라스터 식체 계 가 개 별적 인 사용자에 게 전용워 크스테 이 션에 
대한 빠르고 예측가능한 응답시간을 제공하며 너무 커서 탁상콤퓨터가 클라스터전면에 
걸쳐 자원들을 중강해 야 하는 과제들도 허용하는것 이 다. 

NOW 과제 는 9 장에 서 론의 한 대 부분의 클라스터문제 들을 처 리한다. 효률적 인 통신 
은 상업 적기 가비 트망들과 능동적 인 통보문통신규약을 리용함으로써 지 원된 다. 단일 체 계 
영 상과 자원관리，유용성 은 CLUnix 라고 부르는 사용자수준의 클라스터 폭쏘프트웨어 를 통 
하여 제공된다. XFS 라고 하는 봉사기 없는 망파일체계는 확장가능하고 고도로 유용한 
단일 파일 계 층을 지 원하기 위하여 개 발되 였 다. 최 근에 NOW 집 단은 고도로 유용하고 증가 
적 으로 확장가능하며 지 리적 으로 떨어 져 있는 Web 봉사들을 구성 하기 위한 WebOS 라고 
불리 우는 쏘프트웨어 골조 (framework) 를 구성하고 있 다. 

10. 5. 1 . 고속■신들 우 I 한 능동■보문 

능동통보문은 낮은 부가처리를 가지는 통신을 실현하기 위한 비동기통신기구이다. 
그 목적은 밑에 놓여 있는 기본통신하드웨어의 본래능력을 사용자에게 보여 주는것이다. 

기 본착상은 통보문머 리 부의 조종정 보를 통보문조종기 라고 하는 사용자수준부분루린 
에 토의 지 시 자로 사용하는것 이 다. 통보문머 리 부가 목적 지 마디 에 도착하면 통보문조종기 
가 호출되여 망으로부터 나머지통보문을 추출하여 그것을 진행중인 계산과 통합한다. 

능동통보문기 구 

능동통보문기구는 하나의 일 반적 인 명 세 세 179] 와 서 로 다른 실 현들을 가진 다. 보충 
적 인 기 능들을 제 공하기 위하여 최 초의 능동통보문을 확장할데 대 한 제 기 들도 있 다. 여 
기서는 일반능동통보문판본 1의 기 본기구만을 론의한다. 왜 냐하면 그것 이 대 부분의 실현 
에 따르는 명세서 이기 때 문이 다. 판본 2[426] 는 최 근에 나왔는데 널 리 실현되 지 않고 있 다. 
판본 1 의 명세서는 그림 10-18 에서 보여 주는바와 같이 적은 수의 함수(명령)들에 대한 사 
용을 규정한다. 이 함수들은 다음과 같은 가정 에 기 초한다. 

• 능동통보문은 SPMD 응용의 프로쎄스들사이의 통신들을 지원하는데 사용되는 하 
나의 쏘프트웨어층이다. 

• 프로그람은 매개가 0 부터 n-1 까지의 가상마디번호 (VNN) 로 배렬된 «개의 처리기 
들로 구성 된 다. 프로쎄 스의 창조와 관리 는 능동통보문층밖의 어 떤 체 계봉사(실 
례 로 GLUnix) 에 의하여 제 공된 다. 


일 반능동통보문명세 서 에 따라 콤파일하는 능동통보문층을 GAM 층이 라고 부론다. 이 
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층은 그림 10-18 에서 보여 주는 5개의 기본명령(연산)들을 제공한다. 여기서 vnn_t 와 
handler_t 는 각각 가상마디 번호와 통보문조종기 부분루 린에 대하여 GAM 가 정의 한 자료형 
이 다. GAM 은 여 러개의 유털리리함수들도 제 공한다. GAM 에는 2가지 형 태의 통보문 즉 
아래 에 서 정 의하는 요청 통보문과 응답통보문이 있 다. 

요청 통보문 (Request Message) 

요청통보문 W 는 다음의 요청함수를 호출하여 보낸다. 

am _ request _ 2 ( Destination , request _ handler , x , y ) 


기섶함수 # t 

int 빼 . ， requi«t_.M(vrn__t iest, requc5t_hfll>d]cr p i 메와卜 , IFUt 
in* dest, repLy_ handler, illft Mg 여 

int souree, void *Ivul, 지 。 id *m 】 mt rJbjffes, 

hmdlqrj 【 cp]y_handlc【, void *hemdlCT_Wg) 
in( am_alD(nct' , nin_t dcs。void *데 ™id rnf 

tian(ilcT_t foqucst_hflndlcf, void *handter_arg) 
verijd ain_pQLI<void) 

항 i 

// 눈等等•보**■ 초 H * l 성 •= 나. 

hram_diHtoler '« 바 U ^**i*+4 - i 내변하 . 

tnE sm_pf«s<void} H 프 J ■ 그랑 si 쇼 삐려;쮸音 되등아， 

mr am_my_proc(voHd) H 보普바끈 대리의 가상바 

int arn_mwi_s.izie(void) // pi/iitra -^ ，매 선 최니다애 = 수暑 ■버普버 ■ 다 . 


그림 10-18. 일반능동통보문의 일부 함수들 

여 기 서 요청 통보문 W 는 request _ handler 와 2개 의 정 수 义와 y , 요청 하는 프로쎄 스의 가 
상마디번호로 구성된다. 요청명령 am _ request _ M (，") 은 M =0 부터 M =4 까지의 5개 판본을 
가지며 매 판본은 M 개의 정수인수들을 가진다. 우의 요청은 2개의 인수 乂와 y 를 가진다. 
이 요청 은 W 를 Destination 프로쎄 스로 보낸 다. am _ request 는 W 가 보내 질 때 까지 귀 환되 지 
않도록 차단된 다. W 가 도착하면 Destination 의 프로쎄 스는 인수 乂와 y , 요청 프로쎄 스의 
VNN 을 가지는 부분루린 request _ handler 를 호출한다. 

응답통보문 (Reply Message) 

응답연산은 요청통보문과 매우 비슷하다. 응답통보문은 다음의 함수를 호출하여 보 


511 





낸다. 


am _ reply _2( Destination , reply _ handler , x , y ) 


여기서 응답통보문 W 는 reply _ handler 와 2개의 정수 义와 y , 응답하는 프로쎄스의 가 
상마디 번호로 구성 된다. 응답명 령 am _ reply _ M (…)은 M =0 부터 M =4 까지 의 5개 판본을 가 
지며 매 판본은 M 개의 정수인수들을 가진다. 우의 응답은 2개의 인수;(:와 y 를 가진다. 이 
응답은 W 를 Destination 의 프로쎄 스로 보낸 다. am _ reply 는 W 가 보내 질 때 까지 귀 환되 지 
않도록 차단한다. W 가 도착하면 Destination 의 프로쎄 스는 인수 义와 y , 응답프로쎄 스의 
VNN 을 가지는 reply _ handler 부분루린을 호출한다. 

통보문조종기들은 빠르며 미리 결정된 시간경계내에 있도록 되여 있다. 다시 말하여 
조종기함수들은 절대 로 지 연되 지 않는다. 이 목표를 달성 하기 위하여 GAM 은 다음과 같 
은 제 한들을 명 기한다. 

• 응답함수는 오직 하나의 요청조종기부분루린으로부터 호출되여야 한다. 

• 응답함수의 Destination 은 오직 요청 하는 처 리 일수 있다. 

• 응답조종기부분루린은 요청 이 나 응답함수를 호출할수 없다. 

am _ stor 와 am _ get 함수들은 2개의 프로쎄스사이의 대규모자료전송에 사용된다. 
am _ store 함수는 다음파 같이 정의된다. 

am _ store ( Dest , lva , rva , N , request _ handler , handler _ arg ) 

이 함수는 호출자(요청하는 프로쎄 스)의 시 작주소 lva 로부터 N 바이 트의 련속적 인 기 
억 령역을 Dest 프로쎄스의 rva 로 시 작하는 기 억 령역 에 전송한다. N 바이트의 자료를 모두 
받은 다음 Dest 프로쎄 스는 request _ handler 를 호출하고 그것 을 파라메 터 인 요청 프로쎄 스 
의 VNN 와 rva , N , handler _ arg 에 로 통과시 킨다. am _ get 는 am _ store 와 비슷한데 방향이 반 
대 이 다. 

am _ get ( Source , rva , lva , N , reply _ handler , handler 一 arg ) 

함수 am _ get 호출은 호출자(응답하는 프로쎄스)의 시 작주소 rva 로부터 N 바이트의 련 
속적 인 기 억령역을 Source 프로쎄스의 lva 로부터 시작되는 기 억기 령 역에로 꺼낸다. N 바이 
트의 자료를 모두 받은 다음 호출자 ( source 는 아니 다.)는 reply _ handler 를 호출하고 그것 을 파 
라메 터 인 source 프로쎄 스의 VNN 파 lva , N , handler _ arg 에 로 통파시 킨 다. 

실례 10.4. NOW 에서 능동통보문의 발생 

그림 10-19 에서 보여 주는바와 같이 짧은 통보문통신에 GAM 을 사용하는 2개 프로 
쎄스프로그람을 고찰하자. 프로쎄스 Q 는 배 렬 A 를 계산하고 프로쎄스 요는 스칼라값 x 를 
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계산한다. 최종결과는 표와 Am 의 합이다. p 가 q 로부터 사刀를 원격으로 꺼내서 x 와 국부 
적으로 합하면 된다. 

이 원격꺼 내기를 실현하기 위하여 프로쎄스 모는 하나의 am _ request 를 실행하여 프로 
쎄 스 Q 에 첨수값 7을 보낸 다. 요청통보문을 받은 다음 Q 는 요청조종기함수 request 를 
호출한다. request _ h 함수의 귀환은 reply 함수를 호출하여 사刀의 값을 P 로 돌려 보낸다. 


프로쎄스 p 프로쎄스 公 


compute x 


compute A 

am_enable(...) ; 


am_enable(...); 

am_request_l(Q, request h ， 7); 
am_poll(); 


am_poll(); 

sum = x+y ; 


am_disable(); 

am__disable(); 


int request_h(vnn_t P, int k) 

int reply_h(vnn_t Q, int z) 


{ am_reply_l(P, reply ji, A[k]); } 

{y = z;} 




그림 10-19. NOW 의 GAM 에 의한 원격꺼내기의 실현 


응답통보문을 받은 다음 모는 응답조종기 함수 : 61 )沙_11를 호출하며 reply _ h 는 A [刀를 P 
의 변수 X 弓: 통과시 킨다. 함수 am _ poll 은 임의의 도착통보문들을 위하여 통신망을 등록 
한다. 

다음의 실례는 2개의 워크스테이션마디들상의 큰 블로크자료전송과 같은 긴 통보문 
의 통신에 어떻게 GAM 을 사용하는가를 보여 준다. 

실례 10.5. GAM 층을 사용하는 긴 통보의 통신 

그림 10-20 에서 보여 주는바와 같이 프로쎄스 모는 N 바이트의 배렬 A 를 계산하고 
그 값을 프로쎄 스 Q 의 배 렬 묘에 기 억한다. 불필 요한 완충 및 복사부가처 리 를 피 하기 위 
하여 먼 저 request _ reply 를 통하여 프로쎄 스 Q 의 기 억 기 령 역 B 가 자료를 받기 위 하여 준 
비되여 있다는것을 확인하기 위한 대화가 수행된다. 하나이상의 요청(또는 응답)조종기가 
있을수 있다. 어느 조종기가 사용되는가는 요청(또는 응답)함수호출에 명기된다. 

• 모가 보내는 첫번째 요청통보문 ( am _ request _0) 이 request ! 조종기를 호출하며 request 
조종기는 응답통보문을 통하여 기억기령역 B 의 시작주소를 P 로 되돌린다. 

• 모가 보내 는 두번째 요청 통보문 ( am _ store ) 은 request 2 를 호출하며 request 2 는 대 량 
자료가 전송된후에 실행된다. 


이 실례 에서 request 2 는 빈 ( null ) 함수이 다. 
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프로세스 p 


프로세스 Q 


compute A 

am_enable(...); 
am_request_0(Q, request 1); 

am_poll(); 

am_store(Q,A ， B ， N,request2 ， arg); 

am_disable(); 


int reply_h(vnn_t Q, int z) 


Process Q 
am_enable(...); 

wait till B is free to receive data 

am_pollO ； 

am_disable(); 

int requestl(vnn_t P) 

{ am_reply_l(P, reply_h, B); } 


am_request_Q(Q, request 1) 


배 렬 A ， | | am_reply_l (P, rcply_h, B) 







片 Bytes 

am_storc(Q,A ， B ， N”") 


배렬 B 

"Bytes 


그림 10-20. GAM 에 의한큰 자료블로크의 대량전송 

능동통보문의 실현 

능동통보문은 일반적인 기구이므로 임의의 하드웨어 또는 쏘프트웨어가동환경에 종 
속될것을 요구하지 않는다. 그것은 MPP 들과 워크스테이션들의 클라스터，지어는 PVM 에 
서 도 실 현된 다. 그러 나 능동통보문은 통신하드웨 어 의 본래 성 능의 큰 몫을 달성할수 있는 
저 수준통신층으로 실 현된 다. 

이 목표는 지 연과 대 역 너 비 의 국면 에 서 만족되 였 다. 실 례 로 FDDI 로 접 속한 
HP 9000/735 워 크스테 이 션들의 클라스터 견본에 서 능동통보문은 대 량자료전송을 위 한 충분 
한 련결대역너비와 175 B 통보문에 대하여 최대대역너비의 절반을 달성한다. 시동시간은 
25 us 로서 작으며 크기에 있어서 TCP 의 성능보다 더 좋다. 

능동통보문의 좋은 성 능은 다음의 원 인들에 의한것 이 다. 

• 사용자수준 능동통보문통신들은 문맥절환 및 보호경계교차와 관련된 부가처리를 
없애 기 위하여 흔히 전체 가 사용자공간에서 실현된다. 임의 의 체 계호출을 내 보 
낼 필요가 없다. 사용자의 응용은 망대면부하드웨어에 직접 접근할수 있다. 통보 
문조종기는 보통 사용자수준의 부분루린이 다. 

• 단순성 일반능동통보문들은 매개가 매우 단순한 기능과 규약을 가지고 있는 5개 
의 명령들만을 가진다. 실례로 그것들은 TCP 와 같은 규약들에서 부가처리의 주 
요원천인 임의의 완충엔진리나 오유검사를 하지 않는다. 
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• 계산과 통신의 겹 침 통보문쏘프트웨 어(실례 로 PVM , MPI ) 는 송신측과 수신측모 
두에서 통보문완충을 요구하는 비차단송신/수신연산들을 통하여 겹 침을 제공한 
다. 능동통보문은 짧은 통보문과 긴 통보문을 구별하여 취급한다. 4개 또는 그이 
하의 단어 들로 된 짧은 자료블로크는 차단 am _ req Ues t 에 의해 전송될 수 있 다. 대 
량자료전송들은 am_store 또는 am_get 를 사용한다. 일반능동통보문은 통신과 계 
산의 겹 침을 쉽게 하기 위 하여 am_store 의 비 차단판본을 제공한다. 

GAM-2 

일 반능동통보문명세 서 의 판본 2는 보충된 많은 기 능과 함께 최 근에 발표되 였 다 [426]. 
GAM 은 병 렬계 산프로그람들에 서 낮은 부가처 리 의 통신을 제 공하기 위한것 이 다. GAM -2 
는 능동통보문을 병 렬콤퓨터지원뿐아니 라 망 및 분산콤퓨터지원에 로 일 반화한다. 개선된 
특징들은 다음과 갈다. 

• GAM 은 병 렬계산프로그람들만 지원한다. GAM 3 는 보충적 으로 MPMD 와 망，분 
산，의 뢰기，봉사기 의 응용들을 지 원한다. 

• GAM 은 단일 스레 드의 프로쎄스들만을 지원 한다. GAM 2 는 다중스레 드의 프로쎄 
스들도 허 용한다. 

• GAM 은 고장안전의 미 론만을 지 원한다. 즉 한 프로쎄 스가 중지하면 전체 병 렬 프 
로그람이 중지되거나 죽는다. GAM -2 는 고장허용 및 고유용성을 가능하게 한다. 

10. 5. 2. 대역자원관리를 우 I 한 GLUnix 

클라스터 들은 유용성과 단일체 계 영상을 제공하기 위 하여 일반적 인 워크스테 이 션 os 
에는 없는 새로운 조작체계기능들을 요구한다. 

두가지 문제가 해결되여 야 한다. 

정확히 어떤 기능이 보충되여 야 하는가? 

필요한 기능들이 어떻게 보충되여야 하는가? 


조작체계확장 

Vahdat et al ..[622] 은 많은 조작체계에서 혁신이 있었지만 상업조작체계에는 거의 나 
통합되지 않았다는것을 언급하였다. 그들은 조작체계는 그것의 기능에 의해서가 아니라 
오히 려 지 원하는 응용들과 하드웨 어 /OS 결합의 가격/성능，체 계의 건전성 에 의하여 구 
입 된 다는것 을 지 적하였 다. 그것 들은 현재 의 방법 들을 평 가하고 모두가 한계 를 가진 다고 
결 론하였 다. 2개 의 방법 을 아래 에 서 론의하였 다. 

극소형 핵 심부 2개의 잘 알려 진 실례 들은 Mach 와 Windows NT 이 다. 모든 봉사들 
을 제공하는 단일핵심부는 여 러 모둘들로 교체되 고 대부분의 본질적 인 봉사들은 극소형 
핵 심 부라고 하는 하나의 작은 모둘에 의하여 제 공된다. 일부 봉사들은 사용자방식 에 서 
제 공된다. 모둘성 은 융통성 과 이 식 가능성 을 제 공한다. 실례 로 Windows NT 는 Windows 3 
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과 OS /2, Unix 와 같은 서 로 다른 조작체계 들과 사용자수준경쟁 을 할수 있다. 그러 나 극소 
형핵 심부방법은 여 러 부족점 을 가진다. 

• OS 모둘들(핵심부포함)의 초기판본은 림시기억기로부터 가능한껏 다시 쓸것을요 
구한다. 

• 서로 다른 하드웨어구성들을 일 치시키기 위하여 요구되는 노력은 여전히 본질적 
이다. 

• 극소형 핵 심 부체 계 는 단일 체 계 보다 더 높은 부가처 리 를 가진 다. 왜 냐하면 그것 이 
문맥절 환과 보호경 계교차，프로쎄 스호상간의 통신에 보다 활동성 을 가지 기 때 문 
이다. 사용자수준의 경쟁은 부가처리를 더욱 높인다. 

사용자수준데 몬과 서 고 Condor 와 PVM , LSF 에 서 와 같이 새 로운 기 능들은 상업 조 
작체계의 최상위에서 사용수준의 봉사와 서고들로서 실현될수 있다. 여기서 최상위는 사 
용자수준의 봉사들과 서 고들이 밑 에 있는 조작체 계 를 호출한다는것 을 의 미한다. 이 방법 
은 핵 심 부의 수정 을 요구하지 않으며 실 현 하기 쉽 다는 우월성 을 가진 다. 또한 극소형핵 
심 부방법 에 서 본 문맥 절 환과 프로쎄 스호상간의 통신에 대 한 부가처 리 를 발생 시 킨다. 

GLUnix 방법 

GLUnix 는 대 역 층 Unix 를 위 한것 이 다. 다음과 같은 2개 의 층으로 구성 되 여 야 한다. 

• 낮은 층은 핵 심 부방식 (핵 심 부수준)에 서 실 행하는 마디 들의 상업 조작체 계 이 다. 

• 높은 층은 쿨라스터에 요구되는 새로운 특징들을 제공하는 사용자수준조작체계 
이다. 

특히 이 대역층은 콜라스터의 마디들에 대한 단일체계영상을 제공하여 처리기와 기 
억기，망용량，디스크대역너비모두가 순차 및 병렬응용들에 배정될수 있도록 한다. 대역 
층은 동적으로 만든 응용에 련결되는 보호방식의 사용자수준조작체계서 고로서 실현된다. 

서 고는 모든 체 계호출을 차단하며 그것 을 가능한껏 응용주소공간의 절 차호출로서 실 
현한다. 사용자수준의 보호는 쏘프트웨 어 고장분리 (software fault isolation ， SFI ) 방식 [63 이에 
의하여 가능하다. 이것은 목적코드에서 모든 기억 및 분기명령앞에 검사를 삽입함으로써 
언어독립형 으로 실 현된 다. 이 방법 은 많은 클라스터특징 들이 사용자수준에 서 실 현될 수 
있게 한다. GLUnix 방법은 여러가지 우월성을 가진다. 

• 실현하기 쉬움 GLUnix 는 사용자수준에서 완전히 실현되며 핵심부의 수정을 요 
구하지 않는다. 첫번째 GLUnix 견본은 3달만에 실현되였다. 

• 이식성 이식성은 대부분의 상업조작체계들에 있는 기반체계로부터 추출한 표준 
적 인 특징들의 최소모임에 기초하고 있다. GLUnix 는 프로쎄스사이의 통신과 프 
로쎄 스의 신호만들기，부하정 보에 로의 접 근을 지 원하는 임 의 의 조작체 계 에 이 식 
가능 하다. 

• 효률성 클라스터 에 요구되는 새로운 특징들은 응용주소공간내 에서 절차호출에 
의해 호출된 다. 하드웨 어보호경 계 와 교차를 요구하지 않으며 핵 심 부트래 프 ( trap ) 
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나 또는 문맥절환을 요구하지 않는다. 여 러 마디 들에 서 여 러 GLUnix 복사들을 
동등하게 하는것 은 공유기억기토막들이나 프로쎄 스사이 의 통신명 령 들을 사용하 
여 실현될수 있다. 

• 건전성 GLUnix 가 사용자수준에 있으므로 그것은 전통적인 결함수정도구들을 
사용하여 철저히 검사될수 있다. 오유는 발견되고 진단되며 제거될수 있다. 

GLUnix 의 특징 

GLUnix 의 견본은 기 업콜라스터 들에 서 중요하다고 생 각되 는 다음과 같은 대 부분의 
특징 들을 제 공하도록 실 현되 였 다. 

• 병렬프로그람들의 협조적인 일정짜기 

• 휴식자원의 발견과 프로쎄스의 이동，부하평형 

• 고속사용자수준통신 

• 원격페지화 

• 유용성지원 

GLUnix 견본은 LSF 에 서 찾아 볼수 있는것 과 비 슷한 유털 리 리 도구들의 모임 을 제 공한 
다. GLUnix 의 착상은 대 단히 흥미를 끄는것 같다. 사용자수준의 착상이 클라스터들에 요 
구되는 모든 기능들을 제공하는데서 충분한 융통성을 가지는가 하는것과 SFI 의 부가처 리 
가 더 빠른 문맥절 환에 의해 보상되 는가하는 시 간만이 증명할것 이 다. 

10. 5. 3. 봉사기 없는 xFS 파일체계 

봉사기 없는 파일체계는 파일봉사기의 기능들을 클라스터의 모든 마디들에 분산시 킨 
다. 전통적인 집중파일봉사기모형은 그림 10-21 에서 봉사기 없는 모형과 대비된다. 


기 억 봉사기 관리 기 , 



( 외와기 ) ( 외육기 ) ( 외^1기 ) ( j 퇴기 ) 
1) 중앙파일봉사기를 가지는 망파일체계 

망 



L ) NOW 외 봉사기없는 망파일체계, xFS 
그림 10-21. 두가지 형 래의 파일체 계모형의 비 교 
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• 중앙기억 자료파일들과 메타자료는 파일봉사기에 련결된 하나 또는 그이상의 
안정디스크들에 기 억된다. 파일의 메 타자료는 파일형 태(정규파일，등록부, FIFO, 
련결，장치 등)，파일크기，장치 正)(여 기 에 파일 이 배 치 된다.)，마디번호，파일소유 
자 ID, 파일 접 근허 가 등과 같은 파일속성 들의 모임 으로 이 루어 진다. 

• 중앙캐쉬 성 능을 개선하기 위하여 매 의뢰기 는 일부 파일블로크들을 국부적으 
로 캐쉬화한다. 그외에 파일봉사기는 의뢰기의 일부 실패들을 충족시키기 위하 
여 자기 의 주기억 에 자주 사용되 는 파일 블로크들을 캐 쉬한다. 

• 중앙관리 봉사기는 메 타자료와 캐쉬일관성 에 대 한 관리를 포함하는 모든 파일 
체 계관리 기능들을 수행한다. XFS (그림 10-2 니에서 모든 봉사기 및 의 뢰기의 
기능들은 분산방식 으로 모든 마디 들에 의하여 수행된다. 실례 로 하나의 마디는 
기 억봉사기，의 뢰엔진리 자모두가 동작할수 있다(가장 왼쪽마디 에서 본것). 

XFS 에서 유일한 제 한은 관리 자가 의뢰기 대 면부를 사용하므로 관리자처 럼 동작하는 
마디도 의뢰기여야 한다는것이다. XFS 에는 아직 기억봉사기들이 있지만 그것들은 클라 
스터 의 마디 들에 분산되 며 단일한 파일 봉사기 에 집 중되 지 않는다. 

값 눅은 디 스크여 유배 렬 (Redundant Array of Inexpensive Disks, RAID) 

그림 10-21 L) 의 봉사기 없는 파일체계는 값 비싼 하드웨에 IAID 를 사용함이 없이 
고성 능과 고유용성 을 제 공한다. 최 근에 xFS 는 단일 기 우성디 스크스트리 핑 (stripping) 을 사 
용한다. 한 파일의 자료블로크들은 여 러 기 억봉사기마디 들로 스트리 프 ( 加 ip) 되 며 다른 마 
디에 기우성블로크를 첨부한다. 마디가 고장나면 고장난 디스크의 내용들을 남은 디스크 
들과 기 우성 디 스크의 배 타합을 실 시 하여 재 구성 할수 있 다. 

RAID 의 부족점 은 작은 쓰기문제 이 다. 즉 만일 하나의 쓰기 가 전체 스트리프가 아니 
라 한개 의 스트리프의 일 부분만 수정하면 새 로운 기 우성디 스크를 추정 하기 위하여 낡은 
기우성디스크와 일부 낡은 자료를 읽어야 한다. 많은 작은 쓰기가 수행된다면 이것은 큰 
부가처 리 를 발생 시킨다. 

XFS 는 이 문제를 풀기 위하여 기 록식스트리 핑 을 사용한다. 매 의뢰기는 먼저 쓰기 
들을 각자의 의뢰기기록에 합친다. 의뢰기실행기록은 모든 쓰기들을 실행기록하는 기 억 
기완충기 이다. 그 다음기 록은 기 록토막들을 사용하는 디 스크들로 보내 진다. 매 토막은 kr 
1개 의 실행기 록쪼각들로 이 루어 지며 기 우성 조각과 함께 모두 소개 의 기 억봉사기들에 보 
내진다. 

실 례 10.6. 쏘프트웨 어 RAID 를 사용하는 XFS 의 기 록식 스트러핑 

클라스터는 4 개의 기억기봉사기들을 가지며 xFS 를 받아 들인다. 그림 10-22 에서 보 
여 주는바와 같이 의뢰기 가 디스크들을 2 개의 기 록토막으로 위 임하는 (commit) 기록에 로 
쓰기들을 합친다고 하자. 
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협조적인 파일캐쉬 

협조적인 파일캐쉬의 착상은 단순하다 [182]. 즉 클라스터의 매 의뢰기마디는 기억 
기 의 한 부분을 파일 캐쉬 로 배 정한다. 협 조적 인 캐쉬알고리 듬은 큰 클라스터폭의 파일 
캐쉬를 만들기 위하여 이 모든 기 억기들을 리용한다. 

의뢰기 가 국부파일캐쉬실패 를 만나면 그것 이 전통적 인 워크스테 이션에서 진행되 기때 
문에 디스크로 가지 않고 자료를 꺼내기 위하여 다른 의뢰기의 기억기로 간다. 원격기억 
기의 사용은 표 10-11 에서 설명된다. 


표 10-11 원격기억기 또는 디스크로부터 8KB 의 블로크에 접근하는 시간 


망매 체 

10Mbps 이씨네트 

155Mbps ATM 

기억 

원격 기 억 기 

원격 디 스크 

원격기억기 

원격 디 스크 

기억 기복사 

250 us 

250 us 

250 us 

250 us 

시 동시 간 

400 us 

400 us 

400 us 

400 us 

자료전송 

6250 us 

6250 us 

400 us 

400 us 

디스크 

0 

14800 us 

0 

14800 us 

전체 시 간 

6900 us 

21700 us 

1050 us 

15850us 


이 표는 원격기 억기 또는 원격디스크로부터의 읽기 에 의한 국부캐쉬 실패 에 드는 평 
가시간들을 보여 준다. 국부디스로부터의 읽기는 같은 디스크시간 (14800 ms ) 이 걸린다. 
자료는 원격기억기읽기가 이써네트에서보다 3배 더 빠르지만 ATM 보다는 14배 더 빠르 
다는것을 보여 준다. 디스크에 비한 원격기억기의 속도우세는 기억기복사와 망의 속도 
가 디 스크속도보다 더 큰 비률로 빨라 지 기 때문에 계 속 커질것 이 다. 

그림 10-24 에서 보여 주는바와 같이 파일은 봉사기의 디 스크에 안정하게 기 억된다. 
전통적 으로 파일들은 의뢰기의 기 억기(대부분의 파일체 계들)와 의뢰기의 국부디스크(실례 
로 AFS ), 봉사기의 기억기(대부분의 파일체계들)에서 캐쉬되였다. 또한 xFS 는 파일이 동 
료의뢰기들의 (원격)기 억기 들에서 캐쉬되도록 한다. 여 러개의 협 조적 인 캐쉬알고리 듬들이 
제 안되 였 다 [182]. 아래 에 서 는 2개 의 협 조적 인 캐 쉬 알고리 듬들 즉 greedy forwarding 또는 
N _ chance forwarding 을 론의 한다. 

Greedy Forwarding 

이 방법은 다음과 같이 동작한다. 

파일에 접근하는 의뢰기가 먼저 국부캐쉬를 시도한다. 자료블로크가 거기에 없으면 
의뢰기는 요청 을 봉사기 로 보낸다. 봉사기 는 다음과 같은 2가지 결과를 가지 고 자기 의 
국부캐 쉬 를 탐색한다. 

• 성공하면 봉사기는 자료를 의뢰기 로 돌려 보낸다. 봉사기 는 또한 매 블로크수준 
에서 모든 의뢰기의 캐쉬내 용들을 기록하는 캐쉬등록부를 유지한다. 

• 실 패하면 봉사기 는 자기 의 캐 쉬등록부를 참고하여 요청 된 자료를 캐 쉬 가 가지 고 
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있는 의뢰기로 요청을 보낸다. 그다음 이뒤의 의뢰기는 자료를 직접 요청한 의 
퇴기로 보낸다. 자료가 의뢰기들의 캐쉬에 다 없으면 봉사기는 자기의 디스크로 
부터 자료를 엄어 목적지의뢰기로 넘기기한다. 

이 방법의 부족점은 갈은 블로크가 많은 캐쉬들에 중복된다는것이다. 의뢰기가 첫번 
째로 블로크를 읽을 때 블로크는 봉사기의 디스크로부터 꺼내 져 두개의 장소 즉 봉사기 
캐쉬와 의뢰기캐쉬에서 캐쉬된다. 같은 블로크를 읽는 다른 의뢰기는 그것을 자기의 국 
부파일캐쉬에 캐쉬한다. 

이 중복은 협조적 인 캐쉬의 유효크기를 줄여 실패률을 증가시킨다. 더우기 중복은 
캐쉬일관성관리를 더 힘들게 한다. 

그러 나 이 방법은 실현하기가 간단하다. 봉사기의 캐쉬등록부는 블로크당 약 24 byte 
의 기억기를 가진다. 8 KB 의 캐쉬블로크들에 대하여 이것은 단지 0.3%이다. 6 MB 의 등록 
부는 2 GB 의 협 조적 인 캐 쉬 에 충분하다. 


의되기 


봉사기 

- r 

노^^쪽^^ 므] j 

1 

망 


사억 기 | 

의되기 | 

1 

(디스크) | 기 억 기 | 


그림 10-24. 의뢰기-봉사기콜라스터 에서 파일을 캐쉬하는 서 로 다른 방법 들 


N - Chance Forwarding 

두번째 파일캐쉬알고리 듬은 N 기 회보내 기 라고 하는 탐욕보내 기 의 일 반화이다. 이 
것은 블로크를 오직 하나의 의뢰기캐쉬에서 캐쉬함으로써 중복문제를 피한다. 그러한 
블로크를 singlet 라고 한다. 의뢰기가 다른 의뢰기의 캐쉬로부터 하나의 블로크를 꺼내 
면 그 블로크는 두번째 캐쉬 에서 비 여 지 며 통보문이 봉사기 로 보내 져 블로크가 이 동 
했 다는것 을 알 린 다. 

Singlet 에서의 문제는 보다 최근의 자료블로크를 위하여 만일 singlet 가 캐쉬의 자기 
자리 를 떠 나 버 려 지 면 singlet 는 전체 협 조적 인 캐쉬 로부터 없 어 진다. 

N 기회보내 기 는 이 문제를 다음과 같이 완화시 킨다. 방법 은 의뢰 기 캐 쉬 가 다 차지 않 
는 한 탐욕보내기로서 정확히 동작한다. 임의의 의뢰기가다 찬 국부캐쉬를 만나 블로크 
버리기를 요구하면 의뢰기는 먼저 그 블로크가 singlet 인가 검사한다. 만일 아니면 버리기 
는 간단히 그 블로크를 버 린다. 블로크가 signlet 이 면 의뢰기 는 블로크의 순환계수기를 N 
으로 설정 하고 블로크를 임의의 의뢰기 로 보내 거기서 캐쉬시 킨다. 두번째 의뢰기 가 후 
에 그 블로크를 버려야 하면 순환계수기를 감소시켜 그 블로크를 다른 의뢰기로 보낸다. 
이 프로쎄스는 순환계 수기 가 0으로 될 때 까지 계 속된 다. 그 다음블로크는 단순히 버 려 
진다. 만일 그 블로크가 의뢰기에 의해 참조되면 그 블로크의 순환계수기는 N 으로 재설 
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정되며 순환프로쎄스가 반복된다. 

대응하는 캐쉬등록부입력자료는 새로운 의뢰기를 지시하도록 갱신되여야 한다. 순환 
계수기 N 이 0( 람욕보내기와 등등)으로부터 1로 증가하면 성능은 25% 개선된다는것이 알 
려 져 있다. 

N =1 로부터 N =2 로 되 면 성 능은 단지 5% 개 선된다. 자을 더 증가시키 면 개 선이 없 다. 

분산관리 

xFS 는 메 타자료와 캐쉬일관성관리 를 포함하여 파일체 계관리 기 능들을 충분히 분산시 
킨다. 가장 중요하게 xFS 는 여 러 마디 들에 위 치하는 여 러 관리 자들을 받아 들인 다. 어 떻 
게 분산관리 가 달성 되 는가를 보기 위하여 그림 10-25 에 서 보여 주는것 과 같은 xFS 의 단 
순화한 파일읽 기 동작을 살펴 보자. 

의뢰기 가 파일블로크를 읽 으러 하면 파일의 경 로이 름과 파일안의 상대주소를 가지는 
요청 을 내 보낸 다. XFS 의 매 등록부는 그자체 가 하나의 파일 이다. 파일 의 이 름을 사용하 
여 의뢰기는 파일의 어미등록부로부터 파일의 색 인번호를 찾을수 있다. 



-►국부동작 -►가농한망동작 


그림 10-25. 난신 의 단순화한 파일접근동작 

색인번호는 유일하게 하나의 파일을 식별한다. 의뢰기는 색인번호를 자주 접근되는 
파일 블로크들을 기 억하는 국부캐 쉬 (Unix 캐 쉬 )에 서 탐색 에 사용한다. 자료블로크가 그 캐 
쉬안에 있으면(캐쉬성 공) 그 블로크는 꺼내 진다. 그리하여 그러한 리상적 인 경 우들에는 
모든 동작들이 국부적이며 디스크접근이 없이 수행된다. 캐쉬 가 실패하면 의뢰기는 어 느 
물리마디가 색인번호들중 어느 무리를 관리하는가 즉 정확한 관리자는 어디에 있는가를 
가리키 는 자료구조인 관리 자표를 조사하는데 그 색 인번호를 사용한다. 이 표는 파일 이 
창조될 때 갱신된다. 또한 관리표가 모든 관리자와 의뢰기에 사본되므로 관리표에서 찾 
을수 있는 국부연산이다. 

그다음 정 확한 관리 자가 같은 마디 에 없으면 색 인 및 상대주소정 보는 망을 통하여 
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정확한 관리자에게 보내진다. 응답가능한 매 파일에 대하여 관리자는 블로크가 캐쉬되는 
가 또는 디스크에서 그 블로크의 정확한 위치，캐쉬한 블로크가 일치하는가와 같은 정보 
의 행로를 보존한다. 

블로크가 갈은 의뢰기의 국부캐쉬에서 캐쉬되고 일치되면 관리자는 읽기요청을 의뢰 
기로 보내며 의뢰기는 자기의 국부캐쉬에서 자료블로크를 꺼내여 그것을 직접 본래의 의 
퇴기로 보낸다. 

자료블로크가 협 조적 인 캐 쉬 에 없으면 관리 자는 색 인마디(또는 inode ) 를 찾기 위한 
imap 라는 자료구조를 조사한다. imap 는 파일의 모든 자료블로크들의 주소들을 포함한다. 
요구하는 자료블로크의 주소는 자료블로크가 꺼 내지 고 요청의뢰기 로 보내지는 정 확한 기 
억봉사기 를 찾는데 사용한다. 

캐쉬일관성은 매 블로크별로 무효와 후쓰기규약으로 실현된다. 블로크를 수정하 
려는 의뢰기 는 먼저 그 블로크에 대 한 쓰기소유권을 얻 기 위하여 파일의 관리 자에게 
통보문을 보내야 한다. 관리자는 임의의 다른 캐쉬복사들을 무효시키고 캐쉬상태를 새 
로운 소유자로 갱 신하여 소유권을 그 의뢰기 에게 준다. 일 단 의뢰기 가 쓰기소유권을 가 
지면 매번 소유권을 얻지 않고 여러번 블로크에 되풀이하여 쓸수 있다. 의뢰기는 다른 
의뢰기 가 같은 자료블로크를 읽거 나 쓸 때 까지 쓰기소유권을 유지한다. 다음 관리 자는 
소유권을 해제하고 임의의 변화들을 안정기억에 flush 한 다음 자료블로크를 새로운 소유 
자에게 보낸다. 

NFS 대 xFS 의 성능 

쓰기 성 능을 개 선 하기 위 하여 xFS 는 기 록식 파일 체 계 (logged file system , LFS ) 를 사용한 
다. LFS 는 지 우기 를 요구하며 프로쎄 스가 파일 들에 로의 가입 들을 통합하기 위하여 쪼개 
진 디 스크공간을 다시 정 렬할것 을 요구한다. 

xFS 는 지 우기 가 병 목으로 되 지 않도록 분산병 렬지우기방법 을 실현한다. xFS 를 위한 
집 합대 역너 비는 파일체 계를 동시 에 읽 고 쓰는 의뢰기들이 점 점 보충됨 에 따라 계속 높아 
진다. xFS 대 역너 비는 표 10-12 에서 보여 주는것과 같이 읽기 에 대 해서는 13.8 MB / S ， 쓰기 
에 대해서는 13.9 MB / S 에 이론다. 

그러나 NFS 는 적은 개선요인들만을 가지는 경우 5개의 의뢰기가 최대이다. xFS 의 
단일 의 뢰 기 성 능은 NFS 만큼 좋지 못하다. 

Anderson et al..[34] 는 이것 이 xFS 기 술의 제 한보다는 견본실현(실례 로 핵 심부봉사대신 
에 사용자수준의 대몬들을 사용하는것)때문이 라고 믿고 있다. 


표 10-12 _ 32개 마디클라스터에서 NFS 와 XFS 의 비교 


파일 연산 

NFS 

i XFS I 

1개 의뢰기 

5개 의뢰기 

개선 

1개 의뢰기 

32개 의뢰기 

개선 

대규모읽기 

1.2MB/S 

2.7 MB/s 

2.25 

0.9 MB/s 

13.8 MB/s 

15.33 

대 규모쓰기 

1.2 MB/s 

1.4 MB/s 

1.17 

0.6 MB/s 

13.9 MB/s 

23.17 

소규모쓰기 

22files/s 

86 files/s 

3.91 

40 files/s 

1122 files/s 

28.05 
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작은 파일들에 대한 쓰기성능을 측정하기 위하여 매 의뢰기가 2048개의 1KB 파일들 
을 창조하는 실행시 간들을 측정한다. 

xFS 는 단일의뢰기의 경우에조차 더 좋은 성능을 보여 준다. xFS 의 확대가능성은 
NFS 보다 더 좋다. NFS 는 매초당 86개의 파일을 창조하는 총 처 리 량을 가지는 5개의 의 
퇴기가 한계이다. 

1 0. 6. 쏘프트웨어실현된 DSM 클라스터 TreadMarks 

Rice 대 학의 Zwaenepoel 집 단에 의 하여 개 발된 단일체 계 영 상，단일 기 억 기 공간， DSM 실 
시 간서고의 마지 막측면으로서 TreadMarks 를 조사한다. 이 체 계는 워 크스테 이 션들의 콜라 
스터 에서 분산공유기억기를 제공한다. 

먼저 콜라스터에서의 단일기 억기공간제 공에서 고려되 여 야 할 주요문제들을 상세 히 
본다. 다음 TreadMarks 가 어떻게 이 문제들을 처 리 하는가를 론의 한다. 그다음 TreadMarks 
착상의 쏘프트웨 어실현을 론의한다. 

클라스터단일기 억기 공간을 얼마나 잘 지 원하는가를 평 가하는데서 다음의 문제 들이 
고려되여야 한다. 

사용자대면부는 무엇 인가? 

어떻게 기억기일치성을 보존할수 있는가? 

어떤 성능적통징들과 기술들이 제공되는가? 

이 물음들에는 아래 와 같이 대 답이 주어 진다. 

10. 6. 1 . 경 계 조 건 

경 계조건들은 DSM 쏘프트웨어 에 의한 제 한들이다. 다음의것 들은 그 제 한들에 대 한 
리해를 도울수 있는 부분적 인 검사목록이 다. 

• 조작체계 가 핵심부의 수정 을 요구하는가? 덜 엄격한 물음은 DSM 의 실현이 
OS 원천코드를 알것을 요구하는가? 

• DSM 이 클라스터통신하드웨어로부터의 특별한 지원을 요구하는가? 

• DSM 이 기 억엔진하드웨 어 로부터의 특별한 지 원을 요구하는가? 

우의 물음들중 임의의것에 대한 대답이 《예》이면 실현이 힘들며 이식성이 실질적 
인 문제로 된다. 실례로 조작체계가 수정되여야 한다면 많은 사람들이 생산체계를 만드 
는 위치에 있을수 없다. 상업용조작체계들에서 원천코드사용허가의 값이 비싸진다. 

Linux 와 갈은 자유 Unix 는 견본응용들이 부족하며 공동의 세계에서 아직 신용되지 않 
는다. 자유 Unix 를 사용될수 있다해도 그 체 계를 Windows NT 클라스터 로 이식 할것을 요구 
한다면 어떻게 되겠는가? 

다행 히 TreadMarks 는 이 3개 의 질문들 모두에 《 아니》하고 대 답한다. TreadMarks 는 
Unix 워 크스테 이 션들의 클라스터 의 사용자수준에 서 실 행한다. 그것 은 핵 심 부수정 이 나 특 
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정한 특별취 급을 요구하지 않는다. 그것 은 표준 Unix 대 면부와 를파일 러， Linker 들을 사용 
한다. 결과 TreadMarks 는 아주 이식 가능하며 IBM 과 DEC , SGI , HP , Sun Microsystems 로부 
터 여러 Unix 가동환경들에 이식되였다. 

TreadMarks 는 실시 간서고로서 실현된다. 

DSM 이 요구하는 모든 통신들(실례 로 페지복제，기 억 기 일 치성연산들)은 sockets 대 면 
부를 통하여 표준 UDP / IP 를 사용하는 통보문넘기기 에 의해 실현된다. 그것은 특정한 가동 
환경 에 의 해 제 공되 는 고성 능하드웨 어 (실 례 로 DEC TurCluster 의 기 억 기 통로)의 우월 성 을 
가질수 있지 만 특정한 하드웨 어지 원을 요구하지 않는다. 그것 은 Unix 워 크스테 이 션들의 
이씨네 트클라스터 에서 실 행할수 있다. 

10. 6. 2. DSM 들 위한 사용자대면부 

단일 기 억기 공간을 가지 는 하나의 콜라스터 는 사용자들에 게 하나의 SMP 의 중앙공유 
기 억 기 만을 마디 의 여 러 기 억 기 들로 교체한 SMP 와 같이 보인 다. 다시 말하여 클라스터 
의 단일 기 억 기 공간은 다음의 것 들을 지 원해 야 한다. 

• DSM 서 고에 대 한 동적련결 을 가지 는 현재 의 2진코드. 

특히 순차 2진프로그람은 모든 클라스터마디들의 기억기들을 사용할수 있어야 한다. 이 
것은 아직까지 현재의 체계들에서 유효하게 해결되지 못한 문제이다. 

• DSM 서 고에 로 재 를파일 되 고 재 련결 ( relink ) 되 는 수정 하지 않은 원 천코드. 

• 원천코드는 특정 한 공유기 억 기 구문들(서 고의 루린들, 를파일 러 지 령 들 등)을 삽입 
하여 수정하여 야 한다. 대 부분의 쏘프트웨 어 DSM 들 (Treadmarks 포함)은 이 방법 
을 따른다. 

세번째 방법 은 원 천코드를 다시 쓸것 을 요구하므로 DSM 쏘프트웨어 는 간단한 
API 를 제 공해 야 한다. TreadMarks API 는 7개의 서 고함수들만을 포함하므로 대 단히 
간단하다. 

그림 10-26 은 야코비 ( Jacobi ) 오락을 위한 TreadMarks 프로그람을 보여 준다. 여 기서 
TreadMarks 구문들은 첫번째 출현때 굵은 글자로 보여 준다. TreadMarks 프로그람이 실행 
을 시작할 때 프로쎄스 0만이 실행되고 있다. Tmk _ startup 서고함수는 TreadMarks 를 초기 
화하고 원격 프로쎄 스들을 시 작한다. Tmk _ nprocs 변수는 병 렬 프로그람의 프로쎄 스의 수이 
다. Tmk _ proc _ id 변수는 0부터 Tmk _ nprocs - l 까지 정렬한 프로쎄스 ID 를 포함한다. 공유 
기 억기공간은 Tmk _ malloc 함수에 의해 배정된다. 공유공간은 함수 Tmk _ free 에 의해 해제 
된 다. 

정적 으로 또는 malloc 호출에 의해 배정된 기 억기는 비공개 이 다. Tread Marks 는 3개 의 
동기 화함수를 제 공한다. Tmk _ barrier ( k ) 는 장벽동기 화를 위한것 인데 여 기서 노는 표식 으로 
서 여기서는 무시될수 있다. 2개의 함수 Tmk _ lock _ acquire 와 Tmk _ lock _ release 는 각각 
자물쇠 를 획 득하고 해 제한다. 
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그림 10-26. TreadMarks C 코드에서 Jacobi 오락 


10. 6. 3 . 실 현 문 제 

TreadMarks 는 공유기억기를 바이트들의 하나의 선형배렬로서 취급한다. TreadMarks 
는 워 크스테 이 션마디 들에 서 현존 가상기 억 기 하드웨 어 의 우월 성 을 가지 는 페 지 수준자료공 
유를 사용한다. 마디의 국부기 억기는 대 역적 으로 공유된 기 억기의 캐쉬 와 같다. 

마디 가 공유변수에 대 한 읽 기 또는 쓰기실패(폐 지 고장)를 만나면 이 변수를 포함하 
는 페 지 는 TreadMarks 에 의 해 국부기 억 기 에 복제 된 다. 읽 기 용페 지 들에 대 한 복제 는 아 
무런 문제 도 일 으키 지 않는다. 그러 나 페 지 가 마디 에 의 해 수정 되 면 TreadMarks 실 시 간체 
계는 다른 마디들의 복제된 페지들을 무효시켜 야 한다. 
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2 가지 문제 가 DSM 의 효률을 크게 낮출수 있다. 

첫번째 문제는 일치성을 실시하는것에 의해 생기는 통신부가처리이다. 

두번째 문제는 2개의 상관 없는 변수 ( x 와 y 라고 한다.)가 같은 페지에 배치되고 매 
변수가 서 로 다른 프로쎄 스에 의해 써 질 때 의 거 짓 ( false ) 공유이다. 2개 의 프로쎄 스는 x 
또는 노를 공유하지 않지 만 그 폐 지 를 공유한다. 

TreadMarks 는 이 문제 들을 완화시 키 고 DSM 을 효률화하기 위 하여 3가지 기 술을 사용 
한다. 그것들은 복제 와 무효를 가지 는 해제일 치성 과 일 치성 사건들에 대 한 lazy 프로쎄 스, 
다중쓰기 규약이 다. 

해제일치성 

해 제 일 치 성 은 약한 일 치 성 의 한 형 식 이 다. 해 제 일 치 성 의 착상은 다음의 관찰에 기 초 
하고 있 다. 병 렬 프로그람들은 정 규적 으로 끝나야 한다. 즉 병 렬프로그람들은 자료경 쟁 을 
가지지 말아야 한다. 만일 한 변수가 그 변수에 쓰기를 하는 여 러 프로쎄스들에 의해 공 
유되 여 야 한다면 충돌접 근이 불가능하도록 동기 화연산들이 사용되 여 야 한다. 

비 공개 또는 읽 기용변수에 대 한 접 근은 폐 지의 다른 복사들을 무효화시키 지 말아야 
한다. 동기화는 갈은 공유변수에 대한 2개의 충돌접근들사이에 제출되여 야 한다(만일 접 
근들이 갈은 공유변수에 접근하고 접근들중 적어도 하나가 쓰기이면 2개의 접근에 대한 
재호출은 충돌하고 있다.). 그리하여 동기 화연산이 끝날 때 까지 프로쎄 스는 공유변수의 
수정에 대한 통지를 요구하지 않는다. 

이 것 이 해 제 일 치 성 의 본질 이 다. 즉 기 억 기 일 치 성 연산들은 공유변수가 수정 된 후가 아 
니라 자물쇠가 해제된후에 수행된다. 


Lazy 처 리 

해제일치성은 순차일치성모형에 필요한 통신을 줄이지만 아직도 불필요한 통신들을 
수행한다. 실례 로 그림 10-27 의 코드에서 마지 막 3개 행 을 고찰하자. 프로쎄스 0이 
Tmk _ lock _ release 의 실행을 완료하는 첫번째 프로쎄스라고 하자. SUM 은 모든 프로쎄스들 
에 복제되 므로 통보문을 모든 프로쎄 스들에 보내 여 SUM 이 변화됨 을 알려야 한다. 

실 례 10.7. 공유기억 기프로그람에 서 3가지 변수형 래 

그림 10-27 의 코드는 배 렬 A 의 합을 계 산하는 TreadMarks 프로그람을 설 명한다. 3가 
지 변수형 태 즉 매 프로쎄 스에 국부적 인 비 공개변수(실 례 로 LocalSum ) 와 읽 기용공유변수 
(실 례 로 배 렬 A ), 읽 기/쓰기공유변수(실 례 로 Sum ) 가 있 다. 

마지 막변수형 태 는 자료경 쟁 을 피 하도록 자물쇠 에 의해 보호되 여 야 한다. 그러 나 이 
코드토막은 림 계 구역 (critical region ) 이 므로 하나의 프로쎄 스(말하자면 프로쎄 스 1) 만이 프 
로쎄 스 0 다음에 그것 을 실 행할수 있다. 그리하여 하나의 프로쎄 스만이 프로쎄 스 0에 
대 한 SUM 의 수정 에 대 하여 통지해 줄것 을 요구한다. 통보문을 모든 프로쎄 스에 보내 는 
것은 필요 없으며 통신흐름은 증가한다. 

TreadMarks 는 이 문제를 푸는메 lazy 해제 일 치성 규약을 사용한다. 통지는 해제 직후가 
아니라 프로쎄스 1이 자물쇠를 획득할 때 보내진다. 
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그림 10-27. 자물쇠 를 가지 는 TreadMarks 프로그람 


TreadMarks 는 통지를 프로쎄스 1 에 보내기 위해서만 이 정보를 사용한다. 이 통지정 
보는 자물쇠허 가통보문과 함께 넘 기 기 될수 있으므로 통지 를 위한 통보흐름은 완전히 제 
거 된 다. 그러 므로 프로쎄 스 1이 자물쇠 를 획 득하면 TreadMarks 는 공유변수림계구역 에 대 
한 이전의 실행에서 수정되고 SUM 을 포함하는 그 페지에 대한 프로쎄스 1의 복사가 무 
효되 였다는것을 프로쎄스 1에 알린다. 나중에 프로쎄스 1이 SUM 에 접근하면 그것은 페 
지 실패 를 만나며 TreadMarks 가 갱 신된 페 지 에 이 르게 한다. 

다중쓰기 

lazy 해제일치성은 통보문흐름을 크게 줄일수 있다. 그러나 그것은 거짓공유문제를 
해 결 하지 못한다. TreadMarks 에 서 거 짓 공유문제 는 다중쓰기 기 술에 의 하여 처 리 된다. 

다중쓰기규약은 여러 프로쎄스들이 동시에 같은 페지에 대한 쓰기가능복사를 가지게 
하여 프로쎄스들이 같은 페지에 대한 복사들에 동시에 쓸수 있게 한다. 물론 이러한 여 
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러 쓰기들을 조화시키는 방법 이 있어 야 한다. 

TreadMarks 다중쓰기 규약은 아래에 서술한다. 

2개의 프로쎄스 S 1 과 S 2 이 있어서 이것들이 같은 공유페지 모의 서로 다른 위치에 
동시 에 쓸것 을 요구한다고 하자. S 2 이 P 에 쓰면 TreadMarks 는 묘의 복사 P ’( P 의 쌍이 라고 
한다.)를 창조하고 요를 引에 보존하며 모에 대 한 쓰기보호를 해 제한다. 다음 이은 동기 화 
(실 례 로 장벽 )가 일 어 날 때 까지 보통의 국부기 억 과 같이 p 에 여 러 번 쓸수 있다. 장벽 에 
서 수정 된 묘는 diff 라고 부르는 차분실행길 이부호화를 창조하기 위하여 그것 의 쌍 P ’ 에 
보존된 본래의 값과 비 교된다. 다음 쌍 P ’ 는 버 려 지며 모는 무효된다. 

S 1 이 후에 모에 접 근하면 페 지실패 가 일 어 난다. S 2 에 의해 만들어 진 diff 는 S 1 에 보 
내지며 S 1 에서 diff 는 페지 P 에 적용된다. 

10.7. 참고문헌주해와 련습문제 

Pfister [497], [498], Acderson et al .[33], Xu 와 Hwang [65 刀은 다른 대 변자들속에서 클라 
스터들에 대 한 실례들을 모두 론하였다. POWER CHALLENGEarray 는 SGI [548] 에 서 서 술된 
다. SPARCcenter 는 Cekleov et al .[134] 에 서 SPARCcluster 는 [399] 에 서 서 술된 다. Sun 
Network FileSystem 은 Sandberg et al .[52 기에 서 주어 진다. Compaq Recover Server Option 
Kit 는 [164] 에 서 서 술된 다. Smith 는 [446] 에 서 Microsoft Wolfpack 를 서 술한다. Tandem 
Himalaya 는 [605] 에 서 서 술된 다. 보충적 인 상업 클라스터 체 계 들에 대 한 참조는 표 10-1에 
서 인용된다. 

NOW 과제 는 [469] 와 Auderson et al .[33] 에 서 서 술된다. 봉사기 없는 xFS 체 계 는 [34] 에 
서， GLUnix 조작체 계 는 [36] 에서，부하평 가는 Arpaci et 吐에서 서 술된다. SHRIMP 과제 는 
[23 기에서 서술된다. Wind Tunnel 은 [516] 에서 서술된다. Syracnse WWVM 과제는 [20 기에 
서 서 술된 다. HKU Pearl 은 부분적 으로 [328] 에 서 서 술된다. 클라스터 연구과제 들에 대 한 
보충적인 참고는 표 10-2 에 인용된다. 

클라스터에서 일관성공유기 억기를 어떻게 지원하는가는 Reihardt et 쇼에서 론의된다. 
메타계산의 개념은 Catlett 와 Snarr [133] 에서 처음으로 론의되였다. 클라스터프로그람작성 
을 위 한 Starcluster 는 Cabillic 와 Puant [119] 에 서 서 술된 다. 광대 역 콤퓨터 리 용의 문제 와 기 
술，체계들은 Foster et al .[248, 249] 와 Grimshaw et al .[282, 410], Dincer 와 Fox [207], Fox et 
al .[251, 252] 에서 론의된다. 

IBM SP 2 의 구조는 a special issue of IBM System Journal ( Vol . 34, N . 2, 1995) 에 서 서 
술된 다. 

POWER 2 처 리 장치 는 Agarwal , et al .[13] 에서， SP 2 구조는 Agerwala et al .[14] 에서 취급된 
다. Cornell SP 2 구성은 [168] 에서 서술된다. MHPCC SP 2 은 [445] 에서 서술된다. SP 2 에서 
사용된 Load Leveler 는 [336] 에 서 서 술된 다. SM 의 통신쏘프트웨 어 는 Snir et al .[574] 에 서 
주어 진다. SP 2 고성 능교환기 는 Stunkel et al .[592] 에서 서 술된다. 

Digital 의 AlphaServer 8400 ■€： Fenwick et al .[239] 에서 서 술된다. Digital Unix 클라스터 
체계들에 대한 개괄은 Cardoza et al .[126] 에서 주어 진다. VAXcluster 는 Shah [551] 에서 
서술된다. TruCluster 는 Caroza et al .[12 기파 Lawton et al .[39 기에서 서술된다. Unix 클라 
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스터의 우월성은 [194] 에서， NT 클라스터는 [195] 에서 서술된다. 

TruCluster 의 TPOC 성 능은 Piantenosi et al .[501] 에 서 주어 진 다. 클라스터 롬퓨 
터체 계들에 대 한 정 보를 찾는 가장 좋은 장소는 제 작업 체 들과 연구센터 들의 매 개 
Web 싸이 트들에 있 다. TreadMarks 는 Amza et al .[3()] 과 Montotharassis et al .[373] 에 서 서 
술된다. 여기서는 또한 다른 쏘프트웨어 DSM 체계들과 비교된다. 

문 제 

문제 10.1. Wolfpack 의 유일한 특징들 즉 이 장에서 론의한 다른 클라스터들에서 찾 
을수 없는 특징들을 3가지 드시오. 

문제 10.2. 3개 의 유용성클라스터구성 즉 즉시대 응와 활성 이어받기，실패허 용클라스 
터 들사이 의 구조적 및 기 능적 차이 들을 설 명 하시 오. 매 유용성 클라스터 구성 에 대 하여 상 
업클라스터체 계의 실례 2가지를 드시 오. 상업응용들에서 그것 들의 상대적 인 장점 과 약점 
을 론하시오. 

문제 10.3. 10.3 을 참고하고 IBM SP 클라스터 / MPP 체계에 대한 다음의 물음에 대답 
하시 오. 

(1) SP 설계집 단이 시 장출하시 간을 줄이 기 위하여 내린 5가지 결정 들을 설명하 
시오. 

(2) SP 를 일반목적체계로 되게 하는 특징 3가지를 드시오. 

(3) SP 가 어 떻게 4가지 SSI 특징 즉 단일입 력 자료와 단일화계층，단일조종점，단일 
일감관리체계를 지 원하는지 설명 하시 오. 

(4) 성 능개 선을 돕는 SP 2 의 구조적특징 을 5가지 드시 오. 

(5) SP 2 통신부분체 계 에서 대 역 너 비를 늘이 기 위하여 사용된 기 본기 술들을 간단히 
설명하시오. 


문제 10.4. 10.4 을 참고하고 Digital TurCluster 에 대 한 다음의 물음들에 대 답하시 오. 

(1) DEC Tur 클라스터는 공유 없는 체계 인가 아니면 디스크공유체계 인가? 

(2) 단일체 계 영상에 대 한 다음의 국면들중에서 TurCluster 가 어 느것 을 지 원하며 
어떻게 지원하는가를 설명하시오. 단일입력자료，단일파일계층，단일조종점， 
단일 기 억 공간，단일 프로쎄 스공간. 

(3) 확대 가능성 을 개 선 하는데 사용되 는 TruCluster 의 구조적 특징 4가지 를 드시 오. 

(4) TruCluster 통신부분체 계 에서 통신부가처 리를 줄이 기 위 하여 사용된 3가지 기 
술들을 간단히 설명하시오. 

(5) TruCluster 가 왜 일 반통보문넘 기 기 층 (Universal Message Passing layer ) 을 받아 들 
이 는가? 
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협조적 인 파일캐쉬 란 무엇 이며 그 우월성은 무엇 인가를 간단히 설명 하시오. 
어 떤 조건에 서 xFS 가 협 조적 인 파일 캐쉬 에 효과가 있 는가? 

어 떤 조건 에 서 xFS 가 좋은 성 능을 거둘수 없 는가? 


문제 10.7. Berkeley NOW 에서 사용된 능동통보문규약을 깊이 생각하시오. 

(1) 능동통보문들과 TruCluster 통신규약사이의 3가지 차이를 드시오. 각각의 우월 
성에 대하여 설명하시오. 

(2) 그림 10-20 에서 왜 프로쎄 스 모가 am-poll 함수실행 을 요구하는가? 

문제 10.8. xFS 를 깊이 생각하고 다음의 문제들에 대 답하시오. 

(1) xFS 와 집 중파일 체 계사이 의 2가지 차이 점 을 설 명 하고 각각의 우월성 을 론의 
하시 오. 

(2) 유용성 을 높이 기 위하여 xFS 에 사용된 기 본기 술을 설 명 하시 오. 

(3) 작은 쓰기문제 를 완화시 키 기 위하여 xFS 에 사용된 기 본기 술을 설 명 하시 오. 

문제 10.9. 2개 의 프로쎄 스가 그림 10-26 의 Jacobi 오락프로그람을 실 행하는데 사용된 
다고 하자. 여 기 서 float 는 4바이 트이 며 페 지 크기 는 4 KB 이 다. 

(1) 왜 3개의 장벽 ( barrier ) 이 있는지 설명하시오. 장벽들 매개가 지워 지면 어떤 
일이 생기는가? 

(2) 거짓공유가 있게 되는 필요충분조건을 유도하시오. 

(3) 다중쓰기규약이 거 짓공유효과를 줄이 기 위하여 어떻 게 사용될수 있는가를 보 
여 주시 오. 

문제 10.10. 2개 의 프로쎄 스 P 0 과 P 1 이 그림 10-27 의 TreadMarks 프로그람을 실 행하는 
데 사용된다고 하자. Lazy 해제 일 치성 규약을 받아 들여 마지 막 3개 행의 림 계 구역 (critical 
region ) 코드가 어떻게 실행되는가를 자세히 설명하시오. 


문제 10.5. 10.5 을 참고하고 Berkeley NOW 과제에 대 한 다음의 물음들에 대 답하 
시오. 

(1) 단일체 계 영 상에 대 한 다음의 측면들중에서 어 느것 을 Berkeley NOW 가 리용하 
며 어 떻게 지 원하는가를 설명 하시오. 단일입 력 자료，단일화계층，단일조종점， 
단일 기 억 공간，단일 프로쎄 스공간. 

(2) 성능개선에 사용되는 Berkeley NOW 의 구조적 특징 4가지를 설명하시오. 

(3) Berkeley NOW 와 SP 클라스터사이 의 4가지 구조적 차이 를 설 명 하시 오. 각각의 
우월성 에 대 하여 론의하시 오. 

문제 10.6. Berkeley NOW 에 서 서 술된 xFS 를 깊 이 생 각하시 오. 
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제 1 1 장. MPP 구성방식과 성능 


기 본적 인 MPP 문제 들을 고찰한 다음에 이 장에서는 대규모의 병 렬성을 지 향한 두가 
지 서로 다른 수법들을 표현하는 현재의 MPP 체계를 서술한다. 

이 체 계 들은 NCC-NUMA 수법 을 표현 하는 Cray T 3 E 와 NORMA 구성 을 리 용한 
Intel/Sandia ASCI option Red 들 이 다. 

여기서는 에네르기성과 예약한 세가지 ASCI/MPP 가동환경에 적용된 확대가능한 설계 
방책을 서술한다. 

이 내 용들은 세 대 교체 를 전후하여 리용되 게 될 다음세 대 의 MPP 를 개 괄한다. 

체 계구성 외 에 최 근 년간 여 러 독립 적 인 연구그롭들이 발표한 MPP 성 능평 가실 험 에 대 
한 결과들을 고찰한다. 

NAS 결과들은 NASA Ames 연구중심 과 중국의 지능콤퓨터체 계를 위한 국가연구중심 에 
서 진행된 MPP 성능평가실험에 기초한다. 

MPI 와 STAP 결과들은 싸우스켈 리 포니 아종합대 학과 홍콩종합대 학이 공동으로 진행한 
MIT/STAP 성 능평 가실 험 에 기 초한다. 

11.1. MPP 기술의 개팔 

MPP (초대규모병렬처리)라는 용어는 그 의미가 시기에 따라 변화되였으므로 지난 시 
기 에 는 애 매 하게 사용되 여 왔 다. 

현재 기 술에 기 초하면 그것 은 수십 만개 의 처 리 소자로 이 루어 진 대 규모콤퓨터체 계 
를 의 미 한다. 1997년까지 제 작된 가장 큰 규모의 MPP 구성 은 Intel/Sandia option Red 에 서 
9216개의 처리기를 가지고 있다. 

11. 1 . 1 . MPP 의 특성과 문제점 

현재 MPP 체 계 의 공통적 인 구성 방식 을 그림 11-1 에 제 시하였 다. 모든 MPP 들은 물리 



그림 11-1. 대규모병 렬처 리기의 일반적구성 방식 
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적으로 분포된 기억을 사용하며 더욱더 많은 MPP 들은 분포된 입출력 ( FO ) 들을 사용하고 
있다. 매 마디는 한개 이상의 처 리소자들과 캐쉬 ( P / C ) 들, 국부기 억，그리고 한개 이상의 디 
스크들을 가진 다. 한개 의 마디 에 는 처 리 기，기 억 기，입 출력 장치 들을 련결 하는 국부련결 이 
있 다. 

초기 MPP 들에서는 이 국부련결이 보통 모선이였는데 최근 MPP 들은 보다 높은 대역 
의 입력을 형절환회로망에 사용하고 있다. 

매 마디는 망결합부회로 ( NIC ) 를 통하여 망에 련결된다. 

확대가능성 

■모의 고유한 특징은 그것들이 수천개의 처 리기 에 이르기까지 확대할수 있게 설계 
된것 이 다. MPP 들은 확대 가능성 을 증대시 키 기 위하여 다음과 같은 기술을 적 용하였다. 

• 물리적으로 분포된 기억구성방식을 사용한다. 이것은 집중형기억구성방식보다 
높은 집합기억폭을 제공하며 따라서 확대가능성을 보다 높여 준다. 

• 기억기와 입출력장치능력사이에 균형적으로 처리된다. 비례적으로 빠른 기억기 
와 입출력부분체계가 없이는 자료를 처리소자에 충분한 속도로 전송할수 없으므 
로 사실상 빠른 처리기는 전혀 가치가 없다. 

• 병 렬 성 과 호상작용능력 사이 의 균형 계 산능력 다시 말하여 <프로쎄 스>/<스레 드>관 
리，통신，그리 고 동기화로 인한 무효시 간이 실행시 간을 관리할수 있다. 


체 계 원가 

MPP 에는 많은 마디와 호상련결요소들이 필요하므로 요소당 원가를 낮추어 야 한다. 
원 가를 낮추는 여 러 가지 수법 들이 리용되 고 있 다. 

• 현재의 상품화된 CMOS 극소형처 리기를 리용한다. 이 처 리 기들은 원래 워크스레 
이 션과 봉사기 를 위하여 개 발되 였 다. 그 가치 는 상업 적특성 의 비 용이 낮고 투자 
를 늘일수 있게 하는것이다. 이것은 그 처리소자의 성능을 18개월부터 24개월까 
지를 주기로 하여 성능을 2배로 늘인다 ( Moore 법칙). 

• 세대별 확대가능한 안정한 구성방식을 리용한다. 이러한 한가지 기술이 1.1.3 에 
서 론의 한 대 면부구성 방식이 다. 

• 물리적으로 분포된 기억기구성방식을 리용한다. 이것은 갈은 기계적크기를 가지 
는 집중형 기억기구성 보다는 비 용이 낮다. 

• SMP 마디 들을 리용한다. 이 것은 호상련결된 규모를 축소시 킨다. 

실례 11.1. TMCC -2 소편전용설계로부터 얻은 교훈 

지난 시기에 MPP 들을 제작하기 위한 실천에서는 수백수천의 전용방식으로 설계된 
“단순한” 마디들의 호상련결이 였다. 실례 로 사유하는 기계 를 들수 있다. 여 기 에서 매 마 
디 들은 본질상 확장된 산수연산부 ( ALU ) 등록기 들과 작은 국부기 억기 이 다. 

간단히 하기 위 하여 여 러 마디들을 한개 소편으로 집적시 킬수 있다. 이 리하여 마디 
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당 비용이 낮아 졌다. 

그러나 개별적인 마디들은 매우 낮은 성능을 가진다. 

상품화된 한개의 마이크로처 리소자의 성능에 조화되도록 하려면 그런 마디 열두개가 
필요하다. 그것들은 전용설계되 였으므로 Moore 법 칙 에 따르지 않는다. 

실례 11.2. 세대별 확대가능성을 보장하는 대면부연구방법 

안정한 구성 방식의 실례 로 이 장에서 론의하는 모든 MPP 들은 어 느 정도 대 면부연구 
방법을 따른다(그림 1.2). 

마이 크로처 리소자가 다음세 대 로 발전함에 따라 체 계의 나머지부분은 변화되 지 말아 
야 한다. 더우기 MPP 들모두는 일정한 마디등급을 가진다. 실례 로 Cray T 3 D / T 犯에 대 하 
여 등급은 6(3 D - torus ) 이며 Intel Paragon 에 대 하여서는 4(2 D - mesh ), 그리 고 IBM SP 2( 다단 
계 오메 가 (multistage omega ) 망)에 대 하여 서 는 1 이 다. 

현재 상품화된 마이 크로처 리소자들은 PC , 워 크스테 이 션，그리 고 SMP 봉사기 ( MPP 를 
위한것 이 아닌)들과 같은 그런 작은 체 계 들이다. 

마이 크로처 리소자들을 리용하면 많은 확대 가능성 과 비 용-효과를 얻 는 반면 에 DSM 
구성 방식 에 기 초한 MPP 에 대 한 여 러 가지 문제 점 들을 발생 시킨다. 

MPP 설계자가 고찰하여야 할 문제목록의 일부는 다음과 같다. 

• 마이 크로처 리소자들은 충분히 큰 물리 적주소공간을 가지 지 않는다. 실 례 로, 
Alpha 21064마이크로처 리소자는 Cray T 3 D MPP 에서 리용된다. 이 처 리소자는 다 
만 2 33 개 바이 트 (8 -기 가바이 트)의 물리 적주소공간을 차지한다. 반면 에 T 3 D 는 최 
대 로 128기 가바이 트 ( GB ) 의 물리 적 기 억 을 가진다. Cray T 3 D 설 계 가들은 물리 적 주 
소공간의 규모를 확장하기 위 하여 DTB Annex 라는 특수한 하드웨 어 를 첨 가하 
였 다. 

• 마이크로처리소자는 충분히 큰 TLB 를 가질수 없으며 TLB 비적중은 캐쉬비적중 
보다 훨씬 더 값이 비싸다. 대 규모자료모임 과 불규칙적 인 기 억접근패 턴의 리용 
에 대하여 TLB 비적중들은 성능을 크게 감소시킬수 있다. 

• 마이크로처리소자들은 한번에 한개의 캐쉬행의 기억에 접근한다. 이것은 한 단 
어씩의 접근을 무효로 한다. 현재 마이크로처 리소자는 오직 작은 척도로 비블로 
크화된 캐쉬만을 지원하며 한두개의 우월한 기억기참조를 허용한다. 이것은 
MPP 에서 요구되는 지연허용능력을 제한한다. 

• 그 계산능력에 비하면 마이크로처리소자는 불충분한 조작체계자원을 가진다. 례 
외적인 처리와 교차보호경계는 값이 비싸다. 이것은 공정관리，통신 및 동기화의 
효과적 인 지 원을 어 렵게 한다. 이 문제는 7장에서 론의하였다. 

일반성과 사용가능성 

현세대 MPP 들은 지난 시 기 경 험 으로부터 학습한다. 

다시 말하여 MPP 가 성 공적 인것 으로 되 자면 그것 이 서 로 다른 응용(례하면 기 술적 이 


534 



든 상업적 이든) 그리 고 서 로 다른 알고리 듬방식，서 로 다른 조작방식 을 지 원하는 그런 
목적지향적인 체계로 되여야 한다. 

여기서는 독특한 구성방식상 비정상적인 주위환경의 리용에 중점을 두면서 적합성이 
적은 응용은 지원하지 말아야 한다. 

보다 명백히 말하면 현재의 MPP 들은 다음과 같은 특징들을 가진다. 

• MPP 들은 비동기 MIMD 방식을 지원한다. SIMD 는 일반목적 MPP 들에서 제외된다. 

• MPP 들은 통보문넘 기기 (PVM 와 MPI ) 그리 고 자료병 렬 ( HPF ) 과 같이 널 리 보급된 
표준프로그람모형 들을 지 원한다. 

• 마디들은 여 러 분할구획들로 배 렬되며 호상작용하는 묶음방식으로 크고작은 작 
업 들을 지 원 한다. 

• 서로 련결된 위상은 자유롭게 련결된 마디들로 이루어 진 모임을 보는 사용자로 
부터 은폐 되여 있 다. 

• MPP 들이 서 로 다른 준위 에서 단일체 계영상을 지 원한다. 밀접하게 결합된 MPP 
들이 흔히 분포된 조작체 계 를 리용하며 하드웨 어준위 와 OS 준위 에서 단위체계형 
태를 제공한다. 

• 이것은 moo 개의 처리기 MPP 들가운데 적어도 한개의 처리소자가 매일 고장날것 
이 라고 생 각된 다 [320]. MPP 들은 높은 리용기 술을 사용하여 야 한다. 


통신요구 

MPP 들과 현재 의 워 크스테 이 션묶음 ( COW ) 들사이 의 기 본차이 점 은 마디 사이 통신에 
있다. COW 에 서 마디 들이 때 로는 표준 LAN 을 통하여 련결 된다. MPP 에 서 마디 들은 
높은 속도，그리고 최대의 대역너비와 작은 지연을 가지는 적중한 망에 의하여 호상 
련결되 여 있다. 더우기 최 대성 능을 실현하기 위하여 적 중한 통신쏘프트웨어 가 보장되 
여 있다. 

이 모든것 은 현재 의 MPP 들이 통신성 능상 COW 들보다 우월 하다는것 을 의 미한다. 그 
러나 앞으로 m 년안에 표준망기술들에서 급속한 전진이 이룩되리라는것을 예견할수 있다. 

MPP 에 서 이 좋은 통신지 원을 맡은 가지 가 앞으로 COW 에 서 리용되 는것 보다 얼 마나 
더 오래 유지될수 있겠는가는 말하기 어렵다. 

기억 기와 I / O 능력 

이것들은 큰 규모로 확대될수 있기때문에 MPP 들은 다른 구성 방식에서 찾아 볼수 없 
는 대규모집 약기억과디스크용량을 보장할수 있다. 

그밖에 상품화된 MPP 들은 고속!八)체 계 에 특별 한 주의 를 돌려야 한다. 

많은 체 계 들에 서 는 기 억 기뿐아니 라 I/O 부분체 계 도 물리 적 으로 분포되 여 있 다. 

그러 나 I/O 의 발전은 체 계의 나머지부분에 비 하여 더 디 다. 그리 고 확대 가능한 I/O 부 
분체계를 보장하는 방법은 적극적 인 연구분야의 하나이 다. 참고문헌들과 Web 자원은 고 
성능 FO 연구대상들에 대 한 지적 자들을 포함하고 있다. 
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11. 1 . 2. MPP 체계들에 대한 개팔 

표 li - i 은 큰 구조의 체 계들에 대 한 세 가지 서 로 다른 방식 을 표현하는 세 가지 현 
il MPP 들의 구성 방식 적특징 들을 렬 거 하고 있 다. 

IBM SP 2 는 10.3 에 서 론의한바와 같이 MPP 의 제 작에 대 한 묶음양식 을 제 공한다. 

Intel ASCI 체 계 는 작은 마디 들 및 견고하게 결 합된 회 로망호상련결，계 산마디 우에 
극소핵심부조작체 계를 가지는 보다 전통적 인 MPP 수법을 따른다. 

Intel Paragon MPP 체 계의 Intel ASCI 체 계 는 Intel Paragon MPP 체 계를 계승하 
斗. 

SP 2 과 Intel ASCI 체 계 는 둘 다 NORMA 모형 을 가지 는 통보문넘 기 기 용다중를퓨터 이 다. 

마디점사이의 통신은 NORMA 기계에서 넘기기되는 명백한 통보문에 의존한다. 

SGFGray Origin 2000은 대 역적 으로 접 근가능하며 물리적 으로 분포되 여 있는 캐 쉬 
|■ 위한 하드웨 어지 원을 가지 며 기 억 체 계 에 의하여 특징 지 어 지 는 MPP 구성 에 대 
로 다른 방식을 표현한다. 

류사한 CC-NUMA 구성 방식 을 리 용한 다른 MPP 는 Hp/Convex Exemplar X~Class 이 다. 

Cray T 3 E 체 계 도 역 시 DSM 기 계 이 기는 하지 만 캐쉬 웅집 을 위 한 하드웨 어지 원은 없 
斗서 이 것 은 NCC-NUMA 기 계 이 다. 

이러한 DGM 기계의 고유한 프로그람작성환경은 공유변수모형을 보장한다. 


표 11-1 _ 세가지 초병렬처리기 ( MPP ) 들의 비교 


MPP 마디 

InteVSandia ASCI 

Option Red 

IBM SP2 

SGI/Cray 

Origin 2000 

큰 표본구성 

9072 처 리 기， 

1.8Tflop/s at SNL 

400처리기，100 

Gflop/s at MHPCC 

128 처리기， 51 

Gflop/s at NCSA 

리용가능한 실 지날자 

1996 년 12 월 

1994 년 12 월 

1996 년 10 월 

처러기 형래 

200MHz, 200Mfiop/s 

Pentium Pro 

67 MHz, 267 

Mflop/s POWER2 

200MHz, 400 Mflop/s 

MIPS R1000 

마디구성방식과 
자료기 억 

2 개 처리기 
32-256MB 기 억, 

공유디스크 

i 개 처리기 
64MB-2GB 국부기 억， 

1-4, 5GB 국부디스크 

2 개 처 리 기 

32MB-256GB 

DSM, 공유디스크 

호상접 속과 

기억기모형 

분산 2Dmesh, 

NORMA 

다 단계 망 

NORMA 

굵은 하이 퍼 립 방체 

CC-NUMA 

마디연산체계 

가볍게 무게화된 핵심부 

(LWK) 

Complete AIX 

(IBM Unix) 

극소핵심부 

Cellular IRLX 

고유한 

프로그람작성기구 

PUMA Portals 에 기초한 

MPI 

MPI 와 PVM 

Power C 

Power Fortran 

다른 프로그람 

작성기 구 

Nx, PVM, HPF 

HPF, Linda 

MPI, PVM 






응용프로그람작성준위 에 서 모든 MPP 들은 C 언어，포트란언 어， HPF , PVM 과 MDI 와 
같은 현재 의 지 원표준언어 와 서 고들이다. 

과거 MPP 들 

지난 시 기 MPP 들은 과학적 인 초고속계 산에 1차적 으로 리용되 였 다. 주목할만한 체 계 
들은 사유하는 기계인 CM 2/ CM 5, NASA / Goodyear 인 MPP , nCUBE , Cray T 3 D / T 3 E , Intel 
Paragon , Maspar MPI , Fuiiesu Vpp 500 그리 고 KSR 1 등등을 포괄하고 있다. 

이 MPP 들가운데서 어 떤것 은 벡 토르하드웨 어 를 가지 든지 혹은 SIMD 섬세한 자료병 
렬성만 가진다. 

초기 MPP 의 일부가 1993 년에 출판된 Hwang 교수가 쓴 《Advanced Computer 
Architecture } [327] 에 서 취 급되 였 다. 

오늘 이 기 계 들의 대 부분은 없 어 졌 다. 그리하여 많은 사람들은 다른 많은 초고속를 
퓨터 회 사들가운데 서 사유하는 기 계 회 사 ( Corporation ), Cray Research Inc , Intel Systems 
Division 들의 역할이 낮아 짐과 함께 MPP 들이 사라졌다고 생각하고 있다. 

현실은 최근 년간에 병렬처리가 공업용，상업용，업무용응용프로그람에 대한 요구가 
높아 짐과 함께 갱신되고 있다. 


상업 용 MPP 응용프로그람들 

MPP 들에 대 한 대 부분의 기 술문헌들과 연구자료들이 기 술공학적계 산에 집 중되 고 있 
다. 많은 연구론문들이 MPP 우에 서 병 렬 처 리 가 큰 회 피문제 들을 얼 마나 풀수 있 는가를 
론의 한다. 

이것들은 MPP 가 매우 거대한 병렬적인 과학기술계산응용에만 좋다는 그릇된 인상을 
줄수 있다. 

사실상 많은 MPP 들은 상업용응용프로그람 및 망응용프로그람들에서 성과적으로 리 
용되 고 있 다. 례 컨대 1997년까지 판매 된 3000개 의 SP 2 체 계가운데 서 약 절 반이 상업 적응 
용프로그람에 적용되였다. 나머지 절반가운데서 큰 몫이 LAN 공고화에 적용되고 있으며 
작은 몫에 해 당한것만이 과학적고속계산에 리용된다. 

상업적 MPP 응용프로그람의 특별히 가장 널리 응용되는 분야의 하나는 자료기지，결 
심 지 원체 계 , 그리 고 수자식 서고들이다. 

확대 가능성，리용가능성 및 관리 가능성 은 상업 적 고성 능응용프로그람시장에 서 더 욱 
중요하다. 

11.2 에서 Cray T 3 E / MPP 를 학습한 다음 우리는 11.3 에서 MPP 의 완전히 새 로운 세대 
를 고찰할것 이며 ASCI option Red 체계의 일부 구체 적 인 내 용은 11.4 에서 취급한다. 
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11.2. CrayT 3 E 체계 


1995 년에 개 발된 Cray T 犯는 1993년에 생산된 Cray T 3 D 체계의 계속이 다. 

이것은 보다 빠른 요소들을 리용하며 여러가지 구성방식적변화들을 받아 들여 T 3 D 
보다 성능을 개선하였다. 

이 것 들은 T 3 D 구성 방식 의 응용환경 과 성 능평 가실 험 렬 로부터 이 루어 진 다[40, 361， 340]. 

11. 2. 1 . T 3 E 의 체계구성방식 

그림 11-2 에서 보다싶이 Cray T 犯는 분산공유기 억다중처리 소자이다. 이 체계는 고속 
통신을 보장하기 위한 3 D 쌍방향원환체 망과 I / O 장치 에 의한 련결을 보장하는 여 러개의 기 
가링 ( GigaRing ) 통로에 의 하여 호상련결된 여러 개의 처리요소 (processing element - PE ) 로 이 
투어 져 있다. V 

T 犯의 구성 방식 속성 은 표 11-2 에 목록으로 제 시하였 다. 

T 犯-900은 1996년 말에 발표된 T 犯의 개 량형 이 다. 

그 기본차이 점 은 T 3 E -900 이 고속처 리소자박자 (450 MHz T 3 E 에 서 300 MHz 이 지 만)를 
리용하여 낮은 비 용을 제 공해 주는것 이 다 ( T 3 E 에 대 하여 1 M $ 이 지 만 T 3 E -900 은 500 K $ 보 
다 낮은것에서 시작된다). 


디스크, 테프, 망파 다론 I八)장치 
(SCSI, IPI, ESCON, HIPPI, ATM, FOOP Fibre Channel, etc.) 









처리요소 

T 犯에 서 매 모표는 대 면부회 로에 의 하여 구성 된 DEC Alpha 21164극소형 처 리소자로 
구성되여 있다. 

대 면부회 로는 국부기 억，조종소편，경 로기 소편들을 포함한다. 대 면부체계 론리 는 
75 MHz 에서 실행된다. 

21164처 리 소자는 최 대 속도 600 Mflop/s 를 가지 고 300 MHz 에 서 박자화되 여 있 다. 

국부기억은 64 -GB 까지의 용량을 보장하며 최대 1.2 GB/S 의 대역을 보장한다 (470 MB/S 
에 달하는 STREAM Copy benchmark ). 

경 로조종기소편은 7개 의 쌍방향포구들을 가지 는데 하나는 PE 에 련결하기 위한것 이 
며 나머 지 6개 는 3 D 원환체 망말단에 련결 하기 위한것 이 다. 

주문형식 으로 만들어 진 조종소편은 PE 의 모든 국부기 억 들로 이 루어 진 분산공유기 
억을 실현한다. 

모든 처리소자들은 임의의 모표에 있는 기억에 접근할수 있으며 매 모표는 기가링통로 
를 통하여 임의 의 I / O 장치 들에 접 근할수 있다. 이 소편은 또한 지 연은페 와 효과적 인 동 
기 화지원을 담당할수 있 다. 


표 11-2 _ Cray T 3 E 와 T 3 E -900 들의 성능속성 


속성 

T3E 

T3E-900 

처 리 기 박자주파수 (MHz) 

300 

450 

처 리 기 최 대 속도 (Mflop/s) 

600 

900 

처리기개수 

6-2048 

6-2048 

체계 최대 속도 (Gflop/s) 

3.6-1228 

5.4-1843 

물리적 기 억용량 (GB) 

1-4096 

1-4096 

총최대기억대역 (GB/s) 

7.2-2450 

7.2-2450 

I/O 의 최대통로개수 

1-128 

1-128 

총 !/0 최 대 대 역 (GB/s) 

1-128 

1-128 

3-D torus 최 대 련 결 대 역 (MB/s) 

600 

600 


T 3 E PE 들은 기판준위의 캐쉬를 가지지 않는 대신에 21164처리소자에 있는 캐쉬를 
리 용한다. 

캐 쉬 가 불어 있는 소편은 두가지 준위 가 있는바 그 첫 준위 는 8 -KB 의 명 령캐 쉬 와 
8 -KB 의 자료캐쉬로 이루어 져 있다. 둘째 준위는 련결된 3-통로모임인데 명령과 자료에 
통일 적 으로 리 용할수 있는 90 -KM 의 캐 쉬 이 다. 

기판준위의 캐쉬를 리용하지 않고 주기억대역을 개선할수 있다. 

호상련결 

T 3 E 는 총 6개 의 매 방향에 서 단위 체 계 박자 (13.3 ns ) 의 64 _bit 단어 를 넘 기 기 할수 있 
는 3 D 원환체망 [541] 을 통하여 낮은 지 연과 높은 전역통신을 지 원한다. 
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521 -PE 체계 에 대 한 쌍대 역은 122 GB/S 를 넘는다. 

망은 통보들이 열점들을 선회할수 있도륵 적응적인 최단경로알고리듬을 실행한다. 

I / O 부분체 계 

T 3 E I 八)부분체 계 의 중심 에 는 원환체망에도， PE 에 도 련결되 는 기 가링통로들이 있 
다. 매 기가링통로는 높은 대역과 믿음성을 보장하기 위하여 서로 반대방향으로 오고 
가는 두개 의 고리안에 자료를 가지 는 거 물순환 32 bit 쌍이 다. 

기가링통로에 16개까지의 PE 들이 련결될수 있으며 또한 매 통로는 최대로 lGB/s 의 
대역을 넘기기할수 있다. 최대의 구성체계에서 다중기가링통로를 가진 I/O 부분체계는 
128 GB/S 의 I/O 대역을 보장할수 있다. 

PE 외 에 다음과 같은것 들을 포함하는 기 가링통로에 여 러 가지 형 의 I/O 마디 들이 련결 
되여 있다. 

• 다목적마디. 이것은 SCSI , FDDI , 이씨네트 

• 디스크마디. 이것은 Fibre 통로와 IPI 들 그리고 ATM 들을 보장하도록 Sbus 조종카 
드들을 받아 들인다. 디스크와 RAID 를 지원한다. 또한 테프마디 Block Mux 와 
ESCON 테 프구동기 들을 지 원 한다. 

• HIPPI 마디， lOOMB/s 혹은 200 MB/S HIPPI 통로들을 지 원한다. 

11. 2. 2. T 3 E 의 체계쏘프트웨어 

Cray C 90을 앞단으로 요구하는 T 3 D 와는 달리 T 犯는 self-host 체계 이 다. T 犯는 핵심 
부준위 에서 단일체 계영 상을 보장하는 분산형 조작체 계 인 UNICOS/mk 라고 불리우는 Cray 
64 -bit 유닉스체계 ( UNICOS ) 를 이끌어 낸다. 

T 3 E 는 공유변수，통보문과 그리고 자료병렬프로그람작성을 지원하는 종합적 인 환경 
을 보장한다. 


조작체계 

UNICOS/n 止 UNICOS/mk 체 계 는 국부적 및 대 역 적 봉사기 들로 나누어 진다. PE 는 사용자 
와 체 계 PE 로 나누인 다. 사용자 PE 는 사용자응용프로그람과 지 령 을 실 행 한다. 체 계모표는 대 역 
적 조작체 계 봉사를 제 공한다. 

매 사용자모표는 국부봉사기와 CHORUSCHORUS 체계 [156] 로부터 유도된 유닉스극소핵 
심부를 포함하고 있다. 

모든 처 리 과정특유의 요구들은 극소핵 심 부와 기 억 배 치뿐아니 라 통보문/자료의 넘 기 
기 도 포함하는 국부봉사기 에 의하여 처 리된다. 국부봉사기들은 과제관리，파일공간배 치， 
계 획화，안정 성 그리 고 I/O 관리 들과 같은 그러한 체 계규모봉사를 보장한다. 

UNICOS/mk 체계는 검사점/재기동，파일공유체계，담보된 파일전송 등이 지원되는 핵 
심부를 거 쳐 자동적 인 작업회 복을 지 원한다. 이것은 자원관리，업 무관리，체 계감시，회 계， 
작업계획화 그리고 기밀보호봉사기를 보장하는 한조의 도구를 포함하고 있다. 
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확대 가능한 I/O 를 실현하기 위하여 UNICOS/mk 체 계 는 분산형파일체계관리 를 실행한 
다. 사용자 모표의 국부파일 봉사기 술은 완충기없 이 <읽 기 >/<쓰기 >요구를 봉사한다. 

대 역파일 봉사기 들은 파일열 기 및 닫기 와 같은 적 게 쓰이 는 요구에 대 하여 서 만 리용 
하여야 한다. 

다중파일봉사기들은 병 렬 FO 전송을 진행할수 있도록 한다. 


프로그람작성환경 

T 3 E 는 포트란 90, C , 그리 고 C ++, 최 량화되 고 병 렬 성 된 과학적 및 수학적 서고들에 
대 한 최 량콤파일 러 를 보장한다. 

T 犯는 포트란 90과 HPF 언어 를 리용한 자료병 렬프로그람작성， PVM 과 MPI 서 고들에 
대 한 통보문절달형프로그람작성， Cray 공유기 억서고 SHMEM 와 CRAFT 를파일 러지 령 과 서 
고부분프로그람루린을 리용한 변수공유프로그람작성 을 지 원한다. 

이 도구들을 임의 로 결 합하여서 도 리용할수 있다. 그밖에 도 T 3 E 는 다음과 같은것 을 
포함하는 효과적인 병렬프로그람의 개발을 도울수 있도록 환경도구모임을 보장한다. 

• Total View 라고 불리우는 병렬응용프로그람을 위한 기초적 인 원천준위의 오유수 
정프로그람. 이것은 사용자로 하여금 개 별적 인 과정 혹은 과정그룹의 실행행정 
을 조종하며 현시할수 있 도록 한다. 

• MPP Appentice 라고 불리 우는 성 능병 렬 분석 도구. 이 도구는 성 능정 보를 해 석 하며 
성능개선을 권고하는 전문가체계를 특징 짓는다. 

11. 3. 새 세대 ASCI/MPP 

현재 고성능초고속콤퓨터개발을 위하여 두가지 중요한 노력을 기울이고 있다. 다 
시 말하여 그것 은 petaflops project 와 ASCI 프로그람이다. 

pmflops project 는 고속형 콤퓨터 의 속도를 Pflop / s (10 15 flop / s ) 에 이 르도록 하는것 을 오 
래 전부터 목표로 설정하였 다. 

최근의 연구결과는 합리적인 기술과 commodity oflHhe - shelf ( COTs ) 요소를 리용하면 
이러한 MPP 가 2005년까지 10억딸라의 비용으로 제작될수 있다는것을 보여 주고 있다. 

더 고급한 기 술을 리용하면 2007년 까지 lPflop/s 초대 형콤퓨터 가 제 작될 수도 있 다(물 
론 비용은 예견할수 없다.). 

이 후자는 콤퓨터공업 의 기 본흐름에 대 한 희 망을 담고 있으므로 새 로운 기 술이 
COTS 를 타승할수 있 겠 는가는 분명하지 않다. 

어느 방법이든지간에 lPflop/s 체계는 100만이 상의 스레드 ( thread ) 에 이르기까지 수천 개 
처리기의 범위에서 동시에 초병렬성을 효과적으로 개발하였다. 독자들은 petaflops 
project 에 대 한 더 많은 정보를 알기 위 하여 Web 자원에 문의 하여 야 한다. 
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1994 년 에 에 네 르기성 ( DOE ) 은 ASCI(Accelerated Strategic Computing Initiative ) 프로그람 
을 개 발하였 다. 

이 프로그람은 10년동안에 1억딸라를 지출하였는데 이것은 핵무기저장고의 로화효과， 
생명공학，의학，제약연구，기상예보，비행선과 자동차설계, 기술공정개선，환경보호 등을 
모의 하는 Tflop / s 초대 형 를퓨터 체 계 를 구성 하는데 리 용되 였 다. 

11. 3. 1. ASCI 확대가능체계의 설계전략 

ASCI 프로그람은 지 하핵 시 험 을 위한 대 용물로써 초대 형 콤퓨터 를 개 발할것 이 다. ASCI 
프로그람의 목표는 1996년까지 lTflop / s 체계，2000년경에 10〜 30 Tflop / s 체계，2004년까지는 
100 Tflop / s 체 계 를 설 계 하는것 이 다. 

이 체 계 들은 류사한 비 용으로 개 발리 용될 것 이 다. 

1994년의 mflop / s 로부터 2004년의 100 Tflop / s 까지에 도달하면 10년동안에 10 5 배로 성 
능이 개선된다. 

이것은 무어법칙이 존재하는 콤퓨터공업의 현 추세를 따른다면 도달하지 못할것이다. 
무어법칙을 따르면 10 5 배의 성능개선은 갈은 비용이 보장되는 조건에서 20~32년이 걸릴 
것 이 다. 이것은 100 Tflop / s 의 성 능은 2025년까지도 달성할수 없다는것을 암시하여 준다. 

ASCI 프로그람을 채용하는 방책은 두가지 주목할만한 특징을 가진다. 그 특징은 가속 
적 인 개 발과 균형 적 인 확대 가능한 설 계 이 다. 

ASCI 프로그람은 바로 최대속도가 아니라 응용프로그람성능이 1994년의것보다 5급의 
더 높은 지 속적 인 응용프로그람성 능을 부여할수 있도록 체 계 총체 를 해 결하는것 을 목적 
으로 한다. 

이것은 다음과 갈은 가속화된 단계들로 특징 지을수 있는것으로서 균형적인 확대가 
능한 설계 방법을 요구한다. 

• 시 장의 사탕매 점 과 같은것 으로 생 각하면서 대 중장마당가동환경 이 나 응용프로그 
탐을 대 할것 이 아니 라 과학적 계 산응용프로그람의 높은급가동환경 이 라는데 주의 
를 돌린다. 

• off - the - Shelf ( COST ) 하드웨 어 와 쏘프트요소들을 될 수록 많이 리 용한다. 

• 대규모병렬구성방식을 리용한다. 한개의 체계화상을 가진 유효한 가동환경에 무 
한개의 COTS 마디들이 배렬될수 있는 집적기술과 확대 기술에 주의를 돌린다. 

확대가능한 설계도 

표 11-3 은 균형 적 으로 확대 가능한 계 산환경 을 보장하는 ASCI 설 계 도를 제 시하였 다. 
이것은 2003년까지 핵에 네르기와 무기연구프로그람의 초대형계산요구에 부합된다. 
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표 11-3 _ MPP 들의 특징에 대한 균형적설계를 우 I 한 ASCI 전략 


속성 

1996 

1997 

2000 

2003 

응용프로그람성 
(시 간) 

1 


1000 

100000 

최대계산속도 

(Gflop/s) 

100 

1000 

10000 

100000 

기억용량 (TB) 

0.05 

0.5 

5 

50 

디스크용량 (TB) 

0.1-1 

1-10 

10-100 

100-10000 

문서 보관용 량 (PB) 

0.13 

1.3 

13 

130 

I/O 속도 (GB/s) 

5 

50 

500 

5000 

망속도 (GB/s) 

0.13 

1.3 

13 

130 


균형 적설계방책은 다음과 같은 공학적 고찰을 고려 하고 있다. 

• 말단 대 말단성 능 ( End - to-End Performance ). 리 상적 인 최 대 속도 혹은 성 능평 가실 
험 은 충분하지 못하다. 탁상콤퓨터앞에 앉아 있는 과학자는 목표프로그람의 성 
능이 10 5 배 로 개선되 였다는것 을 보게 될것 이 다. 이것은 코드개 발，작업분담 및 
실행，결과보기 등의 전과정을 포괄한다. 

• 균형 적 이 며 확대 가능한 하드웨 어 . 하드웨 어 는 확대 가능하고 균형 적 이 여 야 한다. 
이것은 탁상콤퓨터와 망하드웨어로부터 초대형콤퓨터가동환경에 이르기까지 여 
러가지 로 확대 가능하다는것 을 의 미한다. 균형 적설계규칙 은 다음과 같이 설정 된 
다. 즉 lGflop / s 의 최 대 속도는 1 GB 기 억기， 50 GB 디스크, 10 TB 문서보관， 16 GB / s 캐 
쉬대 역， 3 GB / S 기 억기 대역， O . IGB/s I / O 대 역， lOMB / s 디 스크대 역 그리 고 IMB / s 문서 
보관대 역 들과 정 합될 것 이 다. 

• 균형 적 확대 가능한 쏘프트웨 어 . ASCI 는 10부터 100배 까지 의 성 능개 선 이 새 로운 
쏘프트웨어가 개 발됨 으로써 달성될것 이 라는것을 담보한다. 이 러한 쏘프트의 요 
구들은 과학자들이 초대 형콤퓨터 를 효과적 으로 리용할수 있 을뿐아니 라 그 생 산 
성을 개선할수 있게 한다. ASCI 는 이러한 도구들이 없으면 생산성과 질이 높은 
응용프로그람을 개 발하는데 30년 이 상 걸릴 것 으로 예 견 한다. 

11. 3. 2. 하드웨어와 쏘프트웨어에 대한 요구 

ASCI 기 금은 ASCI 표준가동환경 을 제 작하기 위하여 세개의 주요콤퓨터회사들에 하드 
웨어와 쏘프트웨어요구의 완전모임 을 지시하였다. 

이 요구들은 아래 에서 다음과 같이 해석되 여 있다. 


하드웨 어 요구 

처리기，계층기억기성， I/O 부분체계들에 대한 요구들은 ASCI 초대형콤퓨터를 제작하 
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두가지 요구기록모임 이 있는바 대부분의 입 력기록들은 1998년을 지 향한 요구들이다. 
괄호안의 입 력기록들의 2000년까지 예견한것들이 다. 

굵게 쓴 입력기록들은 공업수준이 1997년에 그 요구를 충족시킬수 없다는것을 의미 
하는것 이며 가늘게 쓴 입 력기록들은 현재의 공업수준에서 도달할수 있는것들이 다. 

국부기 억기처 리기당 요구들을 고찰한다. 

처리기가 200 MHz 박자 ( CPU 박자시간은 5 ns ) 와 400 Mflop / s 의 속도를 가진다고 가 
정 한다. 

그러 면 표 11-3 에 기 억기지연요구가 1998년까지 는 150〜 400 ns 이 며 2000년까지 는 75 
〜 150 ns 에 해당하였다. 

우연적인 <읽기>/<쓰기>를 위하여서는 기억기대역이 최대로 800부터 3200 MB / S 까지 
(2000 년 가지는 동일하게 유지 된 다.) 이 를것 이 다. 그리 고 국부기 억기능력 은 최 소한 400 GB 
일것이다. 
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쏘프트웨 어 요구 

ASCI 쏘프트웨어요구는 표 11-5 에 제시되였다. 쏘프트웨어령역에서 공업은 훨씬 뒤 
떨 어 져 있다. 그러 므로 기 본노력 이 쏘프트웨 어개 발에 로 지 향된 다. <사람>/<콤퓨터 >대 
면부，응용프로그람과 프로그람작성환경，분산조작체 계 등에 서 의 ASCI 의 요구사항은 
아래와 같다. 

1) <사람>/<콤퓨터>대 면부 시 각화와 인 터네 트기 술. 

2) 응용프로그람환경 수학적 알고리 듬， mesh 생 성，령 역 분할，과학적 인 자료관리 . 

3) 프로그람작성환경 프로그람작성모형，서 고들，콤퓨터 들，오유수정기 들，성 능도구 
들, 대 상기 술. 

4) 분산형 조작쏘프트웨 어 V 0 , 파일 및 보관체 계，믿 음성，통신체 계관리，분산형 자원 
관리 

5) 진단성능감시기 체 계의 정상성 감시 


표 11-5 ASCII 쏘프트웨어요구와 공업적인 준비 


쏘프트웨 어 

보안 

확대가능성 

기능성 

이 식 가능성 

인간/를퓨터 대면부 

十 A 

令 A 

가시화命 A 
인터내트 f ᅀ 

t# 

응용환경 

t# 

+ A 

令 A 


프로그람환경 

令 A 


令 A 

令 A 

분산연산쏘프트웨 어 

令 A 

令 A 

少 A 

1 A 

진단성능모니 터 

t# 

令 A 

t# 


공업 적 요구충족;공업 요구불충족; 

요구는 같다.; 요구는 시 간에 따라 증가 

2중입 구자료들은 동시 에 결 합요구를 가리 킨 다. 


11. 3. 3. 수축된 ASCI / MPP 가동환경 

ASCI 화에서 표 11-6 에 제시된것처럼 세가지 계획이 시작되였다. 

Intel 은 lTflop/s 이상의 보장된 라인패크 ( Linpak ) 성능을 가지는 기계 (코드이름은 option 
Red ) 를 제 작하는데 5천 5백 만딸라를 투자하였다. OptionRed 기 계 에 대 하여서는 11.4 에서 
론의 하였 다. 

IBM 은 Lawrence Livermore 국립 연구소에 서 1998년 에 3 Tflop/s 초대 형 를퓨터 (코드이 름은 
Blue Pacific ) 를 제 작하여 직 결시 키 는데 9천 300만딸라를 투자하였 다. 

분명 히 IBM Deep Blue 계 획 은 공동의 관심 사로 되 였 다. Blue pacific option 의 세 부들 
은 1998년 말까지 도 혹은 그이후에 도 공개 되 지 않을것 이 다. 
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표 11-6 _ 세가지 ASCII MPP 가동환경의 요약 


특징 

InteVSNL 

Option Red 

IBM.LLNL 

Blue Pacific 

SGI/LANL 

Blue Mountain 

처리기선택 

200-MHz Pentium Pro 

with 200 Mflop/s 

200-MHz POWER3 

with 800 Mflop/s 

1-Gflop/s MIPS 

processor 

체계구성방식 

NORMA-MPP 

Cluster 

CC-NUMA 

처리기수 

9216 

4096 

3072 

최대속도 

1.8TfIop/s 

3.2Tflop/s 

Over 3 Tflop/s 

기억기용량 

594GB 

N/A 

N/A 

디스크용량 

1TB 

75TB 

N/A 

유효날자 

1997.6 

1998.12 

1998.12 


SGI/Cray 는 두개의 초고속콤퓨터를 결합하여 4 Tflop/s 이상의 최대성능을 가지도록 한 
것 으로써 그 제 작을 위하여 1억 1천 50만딸라를 계 약하였 다. 

3 Tflop/s 의 속도를 목표로 하는 3072개의 처리기로 구성된 한개의 체계(코드이름 
은 Blue Mountain ) 는 1998년 12월까지 Los Alamos 국립연구소에 진행되도록 예견되여 
있 었 다. 

ASCI/MPP option 의 개 발과 응용은 앞으로 주목할만한것 이 다. 

11.4. Intel/Sandia ASCI Option Red 

OptionRed 는 Intel Scalable System Division 파 Sandia 국립 연구소에 의 하여 공동으로 개 
발된 MPP 체계이다. 이 체계는 1996년 12월에 Sandia 국립연구소에서 전개되였다. 완전한 
형태는 1987년 6월에 완성되였다. 

11. 4. 1 . Option Red 의 구성방식 

Option Red 는 그림 11_3에 제시된 분산형기 억 기 MPP 이다. 이 체계는 총 4608마디 (매 
마디 들은 두개 의 200 MHz Pentium Pro 처 리 기 들을 가진 다.)들을 리 용하였는데 1.87 flop/s 의 
최 대속도와 51 GB/S 의 최대교차대 역을 가진 594 GB 의 기 억기를 리용하였 다. 이 마디 들가운 
데서 4536개는 콤퓨터 마디들이며 32개는 봉사기 마디들, 24개는 I 八)마디들 그리 고 2개 가 체 
계 마디이 며 나머 지 는 호트예 비 이다. 

이 체계는 1540개의 전원단과 616개의 호상련결지지관 그리고 640개의 디스크(용량이 
1 TB 이상)를 가진다. 


마디 구성 방식 

콤퓨터마디들은 병 렬계산응용프로그람들을 동작시키 는데 리 용된다. 봉사마디 들은 
log - in , 쏘프트웨 어 개 발 그리 고 기 타 대 화적 인 조작을 지 원 하기 위하여 리용한다. I/O 마디 
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초기체계기동을 담당하며 단일체계화상지원을 위한 나 
계 마디 는 RAS 성 능을 지 원 하는데 리 용된 다. 

들과 봉사마디들은 동시 에 동작한다. 

： 그림 11-4 가)에 제시된것처럼 단일기판에서 동작한 t 
Interface component ) 들을 련 결 하는 방법 으로 사슬화된 c 
.결된다. 

국부 VO 는 다음과 갈은 부분을 포함한다. 

보존포구라고 불리우는 체계의 내부 E 仕 lernet 에 련결 5 
RAS 에 리용된다. 확장접속구는 마디검사를 보장한다. 
드웨어 는 마디 믿 음성 검 사， BIOS , 마디 고장진 단과 조작. 
£함하는 지우기 ROM 을 가지고 있다. 

가디 를 위 한 기 판(그림 11-4 L ), 쌍마디 기 판(그림 11- 
처 리 소자 (1 개마디 )，단일 국부모선과 한개 의 NIC 만이 있 
기 용량은 32부터 286 MB , 64 MB , 1 GB 까지 증가한다. 1； 



















체계호상련결 

마디들은 호상련결된 설비 (ICF) 에 의하여 련결된다. ICF 는 그림 11-5 에 제시된것처럼 
두 평 면 메 쉬 망위 상구조를 리 용한다. 

매 마디기 판은 마디기 판에 있는 NIC 를 거 처 메 쉬 루링 요소 (MRC) 라고 불리우는 카스 
통 (ASIC) 에 련결된다. 

MRC 는 6개의 쌍방향포구를 가지고 있다. 매 포구는 한 방향으로 최대 400MB/S, 그 
리 고 완전 두방향으로는 800MB/S 의 속도로 자료를 전송할수 있 다. 

4개의 포구는 그림 11-5 의 좌，우，상，하와 같이 내부면 mesh 련결에 리용된다. 

이 밖에 내부면련결을 위한 포구가 있다. 임의의 마디 로부터의 통보들은 어느 한 면 
을 거처 벌레구멍형식을 따라 다른 마디로 간다. 이렇게 하면 지연이 감소되고 체계의 
효률이 높아 진다. 

11. 4. 2. Option Red 의 체계쏘프트웨어 

ASCI Option Red 체 계 쏘프트웨 어 는 파라곤환경 이 발전된 형 이 다. 

체 계，봉사기，그리 고 FO 마디들은 파라곤조작체 계를 실행한다. 이것은 OSF 에 기 초한 
분산형 Unix 체 계 이 다. 계 산마디 들은 Cougar 라고 불리우는 LWR(light_weight_kemel) 을 실 행 
한다. 고속통신 Unix 프로그람작성대면부，병렬파일체계를 포함하여 이 두 체계를 대면시 
키기 위한 자원 을 보장한다. 


LWK(Light Weight Kernel) 

LWK 조작체 계 는 다음과 같은 설 계 특징 을 가지 는 PUMA(642) 체 계 로부터 파생 되 였 다. 

• LWK 설계는 수천개의 마디를 가진 MPP 들을 효과적으로 지 원하는 그런 기능이 
상으로 성능을 강화한다. 

이것은 일반적으로 OS 봉사가 아니라 병렬계산에 요구되는 기능들만을 보장한다. 

• TFLOPS 체계에는 수천개의 계산마디들이 있다. Cougnr 는 LWK 가 리용하는 집합 
적 기억기 가 급격 히 증가하는것을 막기 위하여 0.5MB 이 하의 기 억기를 차지하도 
록 설계되여 있다. 

• 설계 는 통신망이 핵 심부에 의하여 동작하여 조종된다고 가정한다. 보호검 사와 
통보립증을 위한 요구는 제 기되지 않는다. 

• LWK 는 열린 구성 방식 을 가지 며 사용자준위 의 서고루린들을 효과적 으로 개 발할 
수 있다. 

그림 1卜6에 제시 한것처 럼 LWK 는 두개의 층으로 이루어 져 있다. 즉 프로쎄 스조종스레 
드 (PCT) 와 요-핵심부로 이루어 져 있다. 

매 마디는 여 러개의 사용자과정， PCT 와 섶-핵심부를 가지 고 있다. 오-핵 심부는 주소 
넘기 기와 통신하드웨 어 에 직 접 접근할수 있는 쏘프트웨어 에 불과하다. 이것은 기본계산， 
통신，주소공간보호기능을 보장한다. 
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사용자준위 응용 

프로스 


PUMA 
핵심부준위 


통신하드웨어 l 통 신 망 | 

그림 11-6. LWK(Cowgar) 환경의 층구조 

PCT 는 봉사라고 하는 그룹보호기 능을 가진 다. LWK 환경 은 신뢰 도에 부분순서관계 가 
부여되 였 다는것 을 전제 로 한다. 

즉 모든 요소들은 통신하드웨어가 정확하면서도 안전한 통신을 보장한다고 본다. 다 
시 말하여 하드웨 어 는 통보를 정 확한 물리 적마디 로 확실하게 전송할것 이 다. 

통보는 고장이 생긴 마디로 전송되든지 전송도중에 잘못되는 현상이 일어 나지 않을 
것 이 다. e - 핵심부는 하드웨어와 다른 마디의 e - 핵심부를 믿지만 pct 들이나 응용프로그 
람처 리들은 믿지 않는다. PCT 는 (2 -핵 심부와 다른 PCT 들은 믿지만 프로쎄스들은 믿지 
않는다. 응용프로그람처 리들은 2- 핵심부와 PCT 를 믿지만 다른 프로쎄스들은 믿지 않는 
다. LWK 구성 방식 은 한개 준위 의 자료구조가 다만 같거 나 더 믿 음성 있는 준위 에 의하 
여 파괴 될수 있다는것 을 담보한다. 이것은 일 련의 보호령역 을 구성 함으로써 달성된다. 
g - 핵 심 부령역 은 한개 마디 에 모든 물리 적 자원을 포함한다. 

부분령역들長 PCT 의 주소공간을 형 성한다. 이 부분령역들은 또 여 러개의 부분령 역 
(매 개 가 프로쎄 스에 대 응하는)들을 포함한다. 매 개 프로쎄스는 자기 령역 에 만 직 접 접 근 
될수 있 다. 

핵 심 부를 파괴시 킬수 없는 프로쎄스는 PCT 를 파피 시킬수 없 다. 핵 심 부를 두 층으 
로 나누면 여러가지 우점이 있다. 

이 렇 게 하면 첫 째 로, 이 식 성 을 증가시 킨 다. 

다른 MPP 인 경 우에 는 g - 핵 심 부코드의 대 부분을 다시 작성하여 야 하지 만 PCT 코드의 대 
부분은 그대 로 이 식할수 있 다. 

둘째 로, 이 와 같이 층들로 나누면 기 능관계，업 무들을 분리시 킬수 있다. 더 중요하게 
는 요-핵심부가 물리적자원접근조종을 담당하며 p CT 는 이러한 접근을 관리하는 방법으로 
배정된다. 

PUMA 의 설 계 가들은 조종과 관리 를 특별 히 정 의하지 않는다. 

대 략적 으로 말하면 관리 라는것은 과제수행 을 위하여 무엇을 어떻 게 하겠는가를 지시 
하는것 이며 조종이라는것은 무엇을 어 떻게 라는 결심 을 실제적 으로 실행하는것을 의미한 
다. 실례 로 시 간구간의 크기 를 선택하는것，어 느 과정 이 통신의 목적대 상으로 되 는가를 
결정하는것，프로쎄 스분담방법 을 선택하는것 등이 관리조작의 실례 들이 다. 시 간구간을 실 
제 적 으로 분리 (실 행 )하는것，통보의 목적대 상이 유용한가를 검 열하는것，분할방법 을 실 현 
하는것 등은 조종조작의 실례들이다. 


(프로세스) - 

■■ ^프로세스 j 

PCT 

마디 

Q- 핵심부 

NIC 


^프로세스^ ) … (프로쎄스) 
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PUMA 설계 가들은 조종조작이 관리조작보다 훨씬 더 자주 일 어 나며 관리 방법 은 조 
종기구보다 더 자주 변한다고 본다. LWK 를 두개의 준위로 나누면 관리방법에 큰 영향 
을 주지 않고서 도 조종조작을 쉽 게 최 량화할수 있 으며 같은 핵 심 부에 서 각이한 PCT 
가 다중과제 혹은 단일 과제 를 실 행할수 있도록 한다. 

통보문넘 기 기 

ASCI Option Red 체 계 는 MPE , NX 그리 고 통보문넘 기 기 를 위 한 입 력 을 지 원 한다. 
보아는 체 계 에 서 표준서 고이 다. NX 는 파라곤과 거 끌방향일 치 성 을 보장하기 위 하여 실 행 
된다. 파라곤상에서 는 많은 응용프로그람들이 NX 통보문넘 기 기서고를 리용한다. 

입력은 가장 효과적이며 낮은 준위 통보문넘기기서고를 보장한다. 입력이라는 개념 
은 PUMA 조작체 계 에서 처 음으로 제 기된것 이 다. 그것은 통보문넘 기 기 에서 기 억기복사부 
가처리를 제거하는데 리용할수 있다. 입력을 사용하는 통보문넘기기는 7.4.3 에서 고찰한 
바와 같은 그런 사용자준위 통신메하니 즘이 아니 다. 핵 심 부교차는 여 전히 필요하다. 

입 력은 통보문전송을 위하여 다른 과정들에 개 방하는 목표프로쎄스의 주소공간의 
일부이다. 

통보문을 송신하기 위하여 송신측 프로쎄 스는 다음과 같은 표본을 가진 핵 심 부루린을 
실 행 한다. 

Send _ user _ msg ( 

Void * buf , //송신통보문완충기의 시동 

Size_t len , //송신통보문크기 

Int tag , //통보문꼬리 표 

Procjd dest , //목적 지 프로쎄 스 ID 

Portal_id portal , //목적 지 portal 의 첨 수 

Int *flag // msg 가 송신될 때 증가하여 야 하는 기 발 

) 

이것은 핵심부가 통보문넘기기를 위하여 필요한 정보를 기록하자마자 귀환하는 차단 
접 근이 다. 원천핵 심 부는 송신측프로쎄 스 ID , 목표측프로쎄 스 ID , 통보문길 이 와 꼬리 표， 
목표입 력 을 포함하는 통보문머 리부를 목표핵 심부에 보낸다. 

그러 나 통보문완충기주소와 기 발은 보내 지 않는다. 머 리 부가 도착하면 목표핵 심 부는 
그것을 번역하여 통보문이 입력에 기억될수 있는가를 검사한다. 그다음에 그것은 통보문 
본체 가 목표입 력 에 송신되도록 한다. 

모든 통보문들이 목표입력에 기억된후에 목표핵심부는 입력서술자에 있는 한 비트를 
설 정하여 새 통보문의 도착을 알린 다. 

통보문이 전송되 면 원천핵 심 부는 기 발값을 하나 증가시 킨다. 송신측 프로쎄스는 그 
기 발을 송신통보문을 언제 다시 리용하는것 이 안전한가를 결 심하는데 리용할수 있 다. 명 
백 한 루린은 통보문을 접 수하기 위하여 접 근될 필요가 없 다. 

수신측 프로쎄스는 통보문이 도착하였 다는것 을 알아 내 는데 입 력 서 술자를 리용할수 
있다. 프로쎄스는 또한 그 입 력 들가운데서 임의의것 에 통보문이 도착하면 신호가 발생하 
도록 할수 있다. 
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11.5. NAS 병렬성능평가기준의 실험결과 

유효한 병렬콤퓨터를 설계할 때 체계설계자는 많은 문제점들에 부닥친다. 

기본문제점은 다음과 갈다. 

주요응용프로그람들을 지 원하는 구성 방식 적 특성 은 무엇 인가 ? 

다음파라메 터 들은 중요한 응용특성 들의 부분적 인 목록이 다. 

• 주기 억 요구 ( mb ) 

• I / O 속도 ( MB/s 로)와 I / O 자료량 ( MB ) 

• 통신지 연시 간(이 사 s ) 과 대 역 너 비 ( rooMB / s ) 

• 평 균병 렬 성，순차적 인 병 목현상 (Amauhl 법 칙 )，립 도 그리 고 부하불균형 등 

이 파라메터값들은 다른것 들가운데 서 응용프로그람，문제크기，기 계크기，처 리 기 속도 
에 의존된다. 

이 절 에서 는 과학적모의，계 산류체 력학，신호처 리응용에 대 한 세개의 NAS 성 능평 가실 
험 들의 구성 방식 적 인 련 관관계 를 론의한다. 

이 연구결과들은 자주 제기되는 세가지 질문들에 부분적인 해답을 준다. 

• 기억기가 얼마나 큰가? 

• 통신부분체계가 얼마나 빨라야 하는가 f 

• I / O 가 얼마나 빨라야 하는가? 

11. 5. 1. NAS 병렬성능평가기준의 실험결과 

NAS 병 렬 성 능평 가실 험 (혹은 NPB ) 들은 이 미 3丄2에 서 론의하였 다. 

표 11-7 에 Gflop 의 총 개수로서 8개의 NPB 성능평가실험들의 문제크기가 제시되였다. 
[593] 에 서 Sun 등은 NPB MG 와 FT 병 렬 성 능평 가실 험 들을 특징 짓 고 병 렬 콤퓨터 구성 방식 
을 설 계하는데 서 련 관관계 를 론의하였 다. 그 특징 은 1.3.3 에 서 위 상병 렬 모형 에 기 초하고 
있 다. 

우리 는 매 성 능평 가실험 을 다단계렬로 나누고 매 다단계 에 대 하여 기 억기， VO , 통신 
요구사항들을 규정하였 다. 그러 면 각이한 기 계 크기 «과 문제크기 N 을 가진 매 성 능평 가 
실험에 대하여 다음과 같은 값들이 얻어 진다. 

• 평 균병 렬 성，순차적 인 몫의 비률 ( Amdahl 법 칙 )，립 도 w ， 부하불균형성 J 등을 포 
함하는 작업부하구조 

• 마디당 성 능평 가실 험 에 요구되 는 기 억기 ( MB ) 

• I / O 속도 ( MB/s 로)와 I / O 자료량 ( MB ) 

• 통신페 런，통보길 이，지 연시 간(知, M s ) 과 대 역 ( roo , MB / s ) 요구사항들을 포함하는 통 
신요구사항 
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표 11-7 _ NAS 병렬 성능평가실험문제 크기 


성능평가실험문제크기 

총 작업부하 (G fl op) 

Class A 

Class B 

Class C 

Embarrassingly parallel (EP) 

26.68 

100.9 

N/A 

Multigrid(MG) 

3.905 

18.81 

155.5 

Conjuagte Gradient(CG) 

1.508 

54.89 


3D FFT PDE(FT) 

5.631 

71.37 

N/A 

Integer Sort(IS) 

0.7812 

3.150 

N/A 

LU Solver(LU) 

64.57 

319.6 

2039 

Pentadiagonal Solver(SP) 

102.0 

447.1 


Block Tridiagonal Solver(BT) 

181.3 

721.5 



우리 는 클라스 C 문제크기 에 대 한 MG 성 능평 가실 험 들과 FT 에 대 한 결 과들을 설 명 
한다.이 결과들가운데서 어떤것은 처리기속도를 파라메터로 리용한다. 

우리 는 항상 일 정 한 속도 ( Mflop / s ) 를 념 두에 둔다. 현재 와 다음세 대 극소형 처 리 기 들은 
200부터 1000 Mflop / s 의 최대속도대 역을 가진다. 그러 나 흔히 속도는 최대속도의 5~10%에 
불과하다. 따라서 우리 는 다음과 갈은 세 가지 경 우에 대 한 결 과들을 설 명한다. 다시 말하 
여 처 리기속도는 10, 50 혹은 100 Mflop / s 이 다. 또한 이 방법들은 다른 값들에 대 하여서도 
유용하다. 

11.5.2. 초걸음구조와 립도 

FT 와 MG 성능평가실험의 다단계구조는 그림 11-7 에 제시되였다. 



매 타원형 도식 은 계 산단계，4각형 도식 은 통신단계 를 의 미 한다. 화살표는 반복을 의 미 
한다. 

실례 로 MG 성능평 가실험 은 4개의 다단계 로 구성 되 는바 세번째 단계 는 680번 반복된 
다. 첫째 단계의 통신단계는 6개의 점대점 으로 구성되며 둘째 단계의 통신단계는 2개의 
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작은 4개의 점대점 으로 구성된다. 

1.3.3 에 서 의 단계병 렬 모형 에 따르는 다단계 의 거 침 성 은 한개 의 다단계 에 서 한개 의 마 
디 에 의 하여 수행 되 는 작업 부하(즉 Gflop ) 이 다. 

FT 와 MG 에 대 하여 우세한 다단계의 거 침성 w 는 표 11-8 에 제시되 였다. 


표 11-8 _ FT 와 MG 에서 우세한 다단계의 거침성 ( Gflop ) 


마디 

2 

8 

32 

128 

512 

FT 

10036 

1221 

305 

76 

19 

MG 

285.2 

71.3 

17.8 

4.5 

1.1 


거 침 성 은 서 로 다른 성 능평 가실 험 들사이 에 서 심하게 변하는바 기 계 크기 가 증가함에 
따라 감소한다. 

다단계모형은 다음과 같은 두가지 실제적인 점들을 보여 준다. 

• 단계병 렬 모형 은 (1.1.3) 모든 NAS 성 능평 가실 험 들을 연구하는 효과적 인 방법 이 다. 
다단계구조는 많은 세부들을 추상화하여 버 림 으로써 매우 단순화된다. 

• 매 성 능평 가실험프로그람은 계산작업 량의 대 부분이 실행 되 는 하나 혹은 두 세 개 
의 우세한 다단계를 가진다. 첫 둥그리기근사화로서 그 주요다단계들에 대해 검 
증할수 있다. 실례 로 세번째 단계 는 그것 이 클라스 C 의 문제크기 에 대 하여 680 
번 반복하므로 MG 에 서 의 우세한 단계 이 다. 

11. 5. 3. 기억기, I/O 및 통신 

임의의 병렬콤퓨터체계설계에서 결정하여야 할 관건적인 파라메터들은 마디당 물리 
적기억기용량이다. 이 파라메터들은 또한 주소공간에 대한 어떤 일정한 최소크기를 요구 
하는 방법으로 처리기설계에 영향을 줄수 있다. 

기 억 기 요구들 

기억기요구는 기계크기의 함수로써，마디당 요구되는 기억기용량으로써 정의할수 있 
다. 이것은 다음과 갈은 모든 형태의 기억기사용을 포괄한다. 즉 자료기억 <입력>/<출력>， 
림시기억，통신통보문완충기들，등등. 

FT 와 MG 에 대 한 마디당 기 억기요구사항은 그림 11-8 에 제시되 였는바 거 기 에는 세 
가지 련 관관계 가 서 술되 였 다. 

• 첫째 로，클라스 C 성 능평 가실 험 는 큰 문제크기 를 가지 며 현재 의 MPP 들에 있 
는 단일마디에 의하여 리용할수 있는 기억기보다 더 큰 기억기를 요구한다. 
사실 상 FT 와 MG 성 능평 가실 험 들은 일 부 처 리 소자들의 불리 적 주소공간크기 보 
다 더 큰 3.5 〜 4.3 GB 의 주기억 을 요구한다. 

• 둘째로，마디당 요구되는 기억기는 더 많은 마디들이 리용될 때 거의 선형적으 
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로 감소하며 통보문넘기기에 리용되는 기억기는 전체 기억기가운데서 적은 몫을 
차지한다. 실례 로 MG 를 실행시 킬 때 8개의 마디 들이 리용된다면 마디당 요구되 
는 총 기 억 기 와 마디 당 요구되 는 통보문완충기 는 각각 457 MB 와 4.26 MB 이 다. 
그러 나 64개의 마디의 경우에는 각각 58.2 MB 와 1.08 MB 이 다. 

셋째 로，그림 11-8 은 NAS 클라스 C 성능평 가실험를 실행시키는 MPP 에 대 하여 
얼마나 많은 마디들이 요구되는가를 보여 준다. 실례로 대부분의 MPP 들은 응 
용프로그람에 의하여 리용될수 있는 1.28 MB 보다 적은 마디당-기 억기를 가진 
다. FT 와 MG 성 능평 가실험 들을 실행시키 자면 적 어도 64개의 마디 를 리용하여 
야 한다. 


I/O 요구들 

I / O 량은 매 성능평 가실험 에 대 하여 맨 처음에 계산한다. 

다음으로 요구되는 I / O 속도를 유도한다. I / O 속도는 I / O 량，처리기의 개수，처리기속도 
에 의존한다. 우리는 다음과 같은 균형적 인 가정을 통하여 I / O 속도를 유도한다. 즉 총체 
적 인 I / O 시 간은 통보문넘 기 기 부가처 리 를 무시한 총 계 산시간과 같아야 할것 이 다. 



ᄀ) FT 프로그람 


니 MG 프로그람 


그림 11-8. 2개의 NAS 프로그람에 대 한 마디기 억기요구들 

표 11-9 는 2-2048 개의 마디들을 거 쳐 FT 와 MG 에 대 하여 요구되는 I / O 속도가 제시 
되였다. 

매 성능평가실험에 대하여 세개의 행은 세가지 경우를 표현하는바 이 경우에 처리기 
당 속도는 각각 10 Gflop / s ，50 Mflop / s ，100 Mfop / s 이 다. 요구되는 I / O 속도는 더 많은 마디들 
을 리용할 때든가처 리 기들이 더 빨라 질 때 뚜렷하게 증가한다. 

실례로 처리기속도가 10 Mflop / s 이면 요구되는 I / O 속도는 기계크기가 2개의 마디 또는 
32개의 마디 일 때 MG 에 대 하여 각각 0.14 MB / S ，2.29 MB / S 이 다. 

그러나 처리기속도가 100Mflop/s 까지 증가할 때 요구되는 I / O 속도들은 1.4MB/S 또는 
22.9MB/S 까지 증가한다. 
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표 11-9 _ FT 프로그람과 MG 프로그람에서 요구되는 I/O 


NAS 코드 

처리기 

속도 

마디 수 1 

2 

8 

32 

128 

512 

2048 

FT 

10Mflop/s 

0.05 

0.21 

0.85 

3.4 

14 

56 

50 Mflop/s 

0.27 

1.06 

4.25 

17 

68 

272 

100 Mflop/s 

0.53 

2.12 

8.5 

34 

136 

544 

MG 

10 Mflop/s 

0.14 

0.57 

2.29 

9.39 

38.7 

164 

50 Mflop/s 

0.7 

2.82 

11.47 

46.94 

193.6 

822 

100 Mflop/s 

1.4 

5.65 

22.9 

93.9 

387 

1643 


현재 의 디 스크와 RAID 기 술로써 직 렬 I 八)(단일디 스크 혹은 단일 RAID ) 는 소형 으로 
부터 중간크기의 기계(실례로 64개 마디이하)나 느린 처리기들에는 아마 충분하리라고 
본다. 

그러나 기계크기가 64개 마디보다 커지고 처리기는 더 빨라 지며 균형적인 체계를 
유지하는데 병렬]/ O 가 요구된다. 

그러 나 모든 NAS 성 능평 가실험 들은 정 규화된 I / O 접 근패 런들을 가지 며 파일 이 다중디 
스크를 거쳐 단번에 넘 어 가는 병 렬！/ O 를 실현하기 어 렵지 않다는것을 보여 준다. 


통신요구 

다른 중요한 인자는 통신부분체계가 얼마나 빨라야 하는가 하는것 이 다. 두가지 통속 
적 인 파라메터 들은 통신지 연시 간(혹은 시 동시 간) 이과 두 마디사이 에 서 점 대 점 통보문을 보 
내 기 위한 접근대 역 디이 다. 

우리 는 이 파라메터 들을 다음과 같이 결 정한다. 다시 말하여 우선 통신시 간을 다단 
계 구조와 처 리 속도로부터 계 산할수 있는 다단계당 계 산시간과 갈도록 설 정한다. 

다음에 방정식 (1.11) 을 리용하여 통신시간으로부터 대역과 지연요구를 도출한다. 

대 역 요구들은 그림 11-9 에 제 시하였 다. 지 연시 간효과가 작은 경 우가 발생할수 있 다. 
요구되는 대 역은 처 리기속도에 비례하여 증가하는것 이 분명하다. 








그러나 요구되는 대역은 FT 곡선이 평탄한 경향성을 보여 주듯이 더 많은 처리기들 
이 리용될 때 필연적으로 증가하는것은 아니 다. 

현재 및 다음세대의 처리기들에 대하여 2000 개의 처리기 들까지는 40-50MB/S 의 대역 
이면 충분하다. 


구성 방식 적 련 관관계 

종합해 보면 NAS FT 와 MG 성 능평 가실험 들은 다음과 같은 구성 방식적 련관관계 를 가 
진다는것을 알수 있다. 

즉 수 Mflop 로부터 수천 Mflop 에 달한다. 

C NAS 성 능평 가 실 험 들 을 실 행 시 키 려 면 처 리 기 당 기 억 기 가 적 어 도 마 디 당 
64-128MB 가 되여야 한다. 

I / O 속도요구는 처리기속도와 기계크기가 증가함에 따라 수백 MB / s 의 범위에서 증가한 
다. 

NAS 결 과들은 병 렬 I / O 를 시 사해 준다. 더 우기 지 연시 간은 Berkeley 결 론과는 반대 로 
대역너비보다 덜 중요하다. 

마디 당 50MB/S 의 대 역너비 이면 매 처 리기는 100Mflop/s 의 속도를 유지 하는 2000 개까 
지의 처리기로서 충분하다. 

우리는 독자들에게 이 결과는 통보문넘기기기계에서 NPB 를 리용한 한가지 연구에 
기초한것 이 라는것 에 대 하여 주의를 준다. 

각이한 프로그람다중모형 을 가지 는 각이한 가동환경 에 서 각이한 성 능평 가실험 들에 
대 하여 서 는 결과와 결 론이 심 히 차이날수 있 다. 

11.6. MPI 및 STAP 성능평가기준의 실험결과 

마지막절에서 우리는 남부캘리포니 아종합대학 (USC) 의 Hwang 의 연구집 단과 홍콩종합 
대 학 (HKU) 에 서 1994 년부터 1997 년사이 에 달성 한 MPI 와 STAP 성 능평 가실 험 결과들가운데 
서 일 부를 소개한다. 

11. 6. 1 . MPI 성능측정 

통보문넘 기기형 대면부 (MPI) 에서 NUMA, 다중콤퓨터 혹은 워크스테 이 션의 클라스들 
은 프로그람작성할 때 통보문넘기기함수를 규정하기 위한 일반적 인 통용통신표준으로 되 
였다. MPI 기 능의 세 부들은 14 장에 서 취 급하게 될 것 이 다. 

MPI 성 능평 가실험 결과들은 세 가지 MPP 즉 [332] 에서 처 음으로 보게 된 T3D, SP2, 
파라곤들에 서 의 성 능평 가실 험 에 기 초한다. 

집체적인 통보화조작은 프로쎄스들로 이루어 진 그롭을 포함하며 인수들을 정합하여 
갈은 집체적인 통신루린을 접근시키는 갈거 나 다른 마디들이 갖추어 져 있다. 

전형적인 집체적조작들은 방송，모으기，산란，전체 교환，차단，감소，주사(앞붙이)등 
이 다. 이 조작들은 사용자가 자기 의 응용프로그람코드를 설 계하는데 공통인 대 면부를 보 
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장한다. 

MPI 실 행 들 

MPI 의 여러가지 실행은 CHIMP/MPI [19], LAM [4 後]， mpi ++[357], MPICH [423] 과 같은 공 
개 적 인 령역 에서 가능하다. 많은 MPP 판매 자들은 그들자신의 기 계구성 방식 에 관하여 최 
량인 고유한 실행방식 들을 창조하였 다. 실례 로 CRI/EPCC CPI [122] 는 T 3 D 우에서 리용할수 
있 다. MPICH 는 SP 2 과 파라곤우에 서 적 합한것 이 다. MPI 실 행방식 들은 표 11-10 에 종합적 
으로 보여 준 집체적조작의 풍부한 모임을 제공하여 준다. 

우리 의 실험 에 의하면 리용되 는 자료구조는 페 지오유를 피할수 있도록 매 마디기 억 
기 에 충분히 맞을 정도로 작게 만들어 졌다. 

검사프로그람은 표준 C 와 MPI 원시형으로 작성되였다. 여기에 기계특유의 서고함수든 
지 임의의 번역코드가 리 용된다. 특히 매 기계 에 쓸수 있는 가장 좋은 콤파일 러선택권이 
항상 리용된다. 

검사조건들 

MPI _ Wtime () 함수를 리용하여 벽시계시 간을 측정한다. 검사프로그람은 예 비동작효과 
를 배 제하도록 세번째 반복할 때 시 작되 는 박자에 맞추어 22번 이상 반복실 행한다. 모든 
처 리 로부터 최 소시 간，최 대시 간，평 균시간을 모은다. 그 결과들을 분석 하기 위하여 우리 
는 최대시간에 주의를 집중한다. 왜냐하면 우리는 이것이 기계에서의 모든 처리들은 조 
작이 끝난 상태를 반영한다고 보기때문이다. 

통보의 총 길이 

/( m ， n ) 을 «개의 마디를 포함하는 집체적조작에서 통보총 길이 라고 하자. 

이것은 집중통신조작에서 마디들의 모든 쌍사이에 전송되는 모든 통보들의 합과 같 
다. 실례로 방송조작에서 m 은 원천마디로부터 방송되는 통보문의 길이 ( B 토)이다. 따라서 
„-1개의 목표들이 갈은 통보문을 수신할것을 요구하므로 / ( m ， 이 다. 류사하게 
산란，모으기，감소，주사조작들에 대 하여서도 / ( m ， 이 다. 

전체 교환조작에 대 하여 서 는 /( m ， n )= mp («- l ) 이 다. 


표 11-10 _ MPI 집체적조작들 


연산 

기능서 술 

MPI Beast 

통보문을 갈은 그룹에 있는 모든 처리들에 방송한다. 

MPI Barrier 

모든 프로쎄스들이 이 루틴에 도달할 때까지 차단 

MPI_Alltoall 

자료를 전체에서 전체 프로쎄스에로 보낸다. 

MPI_Gather 

프로쎄스그룹에서 값들을 수집 한다. 

MPI_Reduce 

보든 프로쎄스들에서의 값을 단일값으로 축소한다. 

MPI_Scan 

프로쎄스수집의 부분축소를 계산 

MPI_Scatter 

그룹에서 자료를 한 과제 에서 모든 과제 에로 보낸다. 
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집 중통신조작을 평 가하기 위하여 4가지 성 능측정 기 준을 표 11-11 로 통합하였 다. 


표 11-11 _ 집중■신측정기준 


전체 통보시간 (MS) 

T(m, p) = t 0 (n) + d(m, n) 

시동지연시간 (MS) 

이 (刀) 

이 행지 연 (MS) 

d(m, n) 

집 합대 역 너 비 (Mbyte/s) 

Roo(n) 


우리 는 통신머 리 부로써 총 통보화시 간방정 식 (3.4) 에 서 T ( m ， w ) 을 정 의하였 다. 이 시 간 
冬 두개 즉 시동시 간 이 ( n ) 과 전송지 연 d ( m ， n ) 으로 나눌수 있다. 

이 표본화에 기 초하면 모든 시 간과 파라메터 들은 마이 크로초로 측정 된다. 점근대역 
은 방정 식 (3.3) 에 서 정 의하였 다. 

우리는 다음과 같은 일반공식 에 의하여 r M ( n ) 와 관련되는 집 합대 역너비 7?나«)을 정 
의하였 다. 즉 


규。。⑷ =，•。。⑷ ></(wi，」p) 

점대점통신인 경우에 방정식 (1 U ) 은 

R oa { n ) = r oa ( ji ) 


으로 쓸수 있다. 

전체 교환조작에 대하여서는 

R 00 { n ) = n ( n -\) r ^ n ) 


( 11 . 1 ) 


( 11 . 2 ) 


(11.3) 


기타 집체적조작들(방송，모으기，산란，주사 등)에 대하여서는 

/?“(«) =(«-1) r M ( n ) (11.4) 


이다. 
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11. 6. 2. MPI 지연시간과 집합대역너비 

방송과 전체 교환조작에 대 한 세개의 기계 에 대 하여 시동지 연시 간 이 ( n ) 은 그림 11- 
10에 제 시하였 다. 



그림 11-10. 2~128개의 마디를 가지는 기계를 거 치는 두가지 MPI 집체적조작의 
시 동지 연시 간들 

이 지 연시 간은 기 계크기 에 따라 단조증가한다. 시 동지 연시 간은 모으기，산란，전체 
교환조작의 경우에도 기계크기에 따라 선형적으로 증가한다. 지연시간은 큰 기계가 리용 
될 때 방송，주사，감소，차단조작들에 대 하여서는 로그함수적으로 증가한다. 

T 3 D 에서 지연시간들 

T 3 D 는 주사조작을 제외한 모든 집체적조작들가운데서 가장 작은 시동지 연시 간을 가 
진 다. 

T 3 D 는 고속통보넘 기 기를 위한 특수하드웨 어를 갖추고 있으며 작은 망지 연시 간 ( SP 2 
에 대 하여 125 ns , 파라곤에 대 하여 40 ns 인것 과 정 반대 로 hop 당 20 ns ) 그리 고 원격 기 억 기 접 
근지 연시 간을 가리우기 위한 미리꺼내기대기렬과 원격처 리 기보관을 리용하므로 작은 지 
연시간을 가진 다. 

파라곤과 SP 2 의 지 연시 간들 

방송조작에 대하여 SP 2 은 파라곤보다 약간 더 큰 지연시간을 가진다(그림 11-101)). 

파라곤은 전체 교환，산란，모으기，감소조작들에서 가장 긴 지연시간을 가진다. 그러나 
주사조작에 대하여서는 T 3 D 보다 훨씬 더 짧은 지연시간을 가진다. 큰 기계를 거처 집체적 
조작들이 통보넘기기할 때 에 파라곤은 다른것들보다 훨씬 더 큰 지 연시 간을 가진다. 작은 
기계를 거치는 집체적조작들에 대하여서는 SP 2 이 전체 교환，산란，모으기조작들의 경우에 
지연시간에서 두번째 자리를 차지한다. 
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능동적인 통보를 가진 갱신된 MPI 

세개의 MPP 들에서 MPI 실행 은 여전히 매우 느리 다. 집체적조작들은 MPP 통신성능에서 
주요병목현상들이다. MPI 에서의 응용통보의 리용은 MPI _ AM [17 기과 MPI _ FM [424] 에서 실현 
되였다. 자료미리꺼내기는 또한 통신지연시간을 줄이는데 리용할수 있다[124, 150, 522]. 

MPP 는 구체 적 으로 병 렬성되 여 있 어 야 하며 응용프로그람코드들은 하드웨 어가동환경 
이 나 망의 위상적구조에 무관계하게 실행되 여 야 한다. 

구성방식적속성들 

통보길 이 를 고려하면 SP 2 은 1 KB 보다 더 짧은 통보에 대 해서 는 파라곤을 릉가한다. 

파라곤은 감소조작을 제 외하면 긴 통보문의 경 우에 SP 2 보다 기 능을 더 잘 수행한다. 
통보문이 짧은 경우에 SP 2 과 파라곤이 방송과 차단조작들에서는 거의 같은 기능을 수행 
한다. 통보문이 긴 경우에 대해서도 T 3 D 와 SP 2 들은 방송，산란，감소조작들에서 류사한 
성능을 가진다. 

T 3 D 는 집 중통신에 서 시 동지 연시 간뿐아니 라 다량의 통보전송지 연시 간을 줄이는 일 부 
특수한 하드웨 어특징 에 의하여 훌륭히 지 원된다. 

장치배 선에 의한 차단은 T 3 D 에 서 의 동기시 간을 뚜렷 히 감소시 킨다. 파라곤은 집체 
적통보문넘기기에서 NX 부가처리로부터 긴 지연시간에 대하여 짧은 통보를 다루는데 미 
약하다. 

지연시간에서의 이러한 파동은 특히 파라곤에서 전체 교환과 모으기조작을 수행할 
때 실제적으로 나타난다. 

SP 2 은 망대역 이 제 한되 여 있는 경 우에 긴 통보들을 다루는데 미 약하다. 

이 상의 MPI 평 가결 과들은 통보문넘 기 기 다중콤퓨터 에 서 병 렬 응용프로그람을 개 발하려 는 
사람들에 게 유용할것 이 다. 집 체 적지 연시 간과 통보전송시 간표형 식 과 서 술한 수값자료들은 집 
체 적통보문넘 기 기를 리 용하는 SPMD , MPMD 계산의 절충연구에 리 용할수 있다. 지 연시 간과 
통보넘기 기지 연시 간은 [656] 에서 보는바와 같은 MPP 성능을 예측하는데 리용할수 있다. 

예 측과정 의 자세한 내 용들을 과제 로 남겨 둔다. 

11. 6. 3. MPP 들의 STAP 성능평가기준 

현존 MPP 들의 성 능은 [334, 634, 656] 에 서 고찰한 STAP 성 능평 가실험 에 의하여 평 가 
되였다. 

아래에 제시된 매체 덩어리는 서술된 결과들에 기초하고 있다. 

STAP 성 능평 가실 험 을 통하여 배 운 내 용들은 다른 리 용자들이 자기 의 병 렬 프로그람을 
MPP 에서 개발할 때 참고하도록 한다. 


STAP 프로그람의 병렬성 

우리 는 단계-병 렬형 을 리용하여 STAP 성 능평 가실험 을 병 렬성 하였 다. 

이 방법은 서로 다른 MPP 가동환경에 병렬 STAP 프로그람들의 이식을 가능하게 하였 
다. 우리 는 MPT 를 모든 내 부처 리 기통신함수를 실 행하도록 선택하였 다. 위 상병 렬 모형 을 
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따르면 매 처 리 기는 각이한 자료부분모임 에 대 하여 값 SPD 프로그람을 실행한다. 


마디프로그람 

그림 11-12 에 세가지 MPP 들가운데 임의의것에서의 전형적인 병렬 STAP 성능평가실험프 
로그람의 자료흐름과 조종흐름을 제 시하였 다. 위 상병 렬 모형 을 따를 때 여 러 가지 자료부분모 
임우에서 매 처 리기 가 같은 SPMD 프로그람을 실행한다. 

매 마디프로그람은 본질상 세개의 기본단계로 구성된다. 즉 도플러처리 ( DP ), 성능평 
가실 험 형 성 ( BF ), 목표검 출 ( TB ) 들이 다. 

입 력 자료립 방체 는 RNG 차원을 따라 P 개 의 꼭 같은 조각(회 색 으로 표시한 수직조각) 
으로 분리된다. 매 마디에는 그림 11-12 에 제시된것처 럼 자료립 방체의 한조각만을 처 리 
할것 을 요구한다. 그러 면 부분으로 분할된 매 조각들은 모든 마디 들에 의하여 동시 에 처 
리된 다. 

한 단계안에서 모든 부분프로그람들이 실행될 때 처 리기들은 절환망을 통하여 통보 
문넘기기에 의해 호상작용하거나 자료를 교환하도록 해준다. 

다단계 Omega 망은 SP 2 에서，20메 쉬 망은 파라곤에서， 3 D 망은 T 3 D 에서 리 용된다. 



일정한 속도 

일정한 속도는 그림 11-13 에 제시된것처럼 기계가동환경과 배렬된 마디수에 따라 변 
한다. 세 가지 기 계 들가운데서 128개 마디의 임의의 STAP 프로그람들을 실행할 때 그 어 
느 기계도 10 Tflop / s 를 초과하지 않는다는것을 관측하였다. 

일반적 으로 SP 2 이 모든 크기의 기계들가운데서 최대 인 일정한 속도에 도달하였으 
면 그다음은 APT 프로그람의 속도결과를 보여 준다. APT 프로그람은 한개의 SP 2 마디에 
서 60 Mflop / s , 128개 SP 2 마디 에서는 4.5 Gflop / s 를 보장하였 다. 
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t 은 APT 는 8 Mflop / s 의 직 렬 속도，128파라곤마디 에 대 하여 490 Mflop / s 에 도달하였다. 
II 림 11-13 L ) 에서 HO - PD 프로그람의 속도결과가 제시되였다. 

자난 시 기 에는 Maui SP 2 에서 256개의 처 리 기를 리용했을 때 23 Gflop / s 의 속도를 관 
S 다. 

TO - PD 는 m .99 Gflop / s 의 작업 량과 61.44 MB 의 매우 작은 입력자료립 방체를 가진 계 
매 우 효과적 인 프로그람이다. 그 통신비 용은 그 계 산상 작업 량에 비 하여 상대 적으 
I 작다. 64개의 처리기로 구성된 경우에 SP 2 T 3 D , 파라곤은 각각 5.2, 2.1 그리고 
lop / s 의 속도에 도달하였다. 

L 28 개 마디의 경우에 SP 2 은 그림 11-13 L ) 에서 보다싶이 최 대속도 9.8 Gflop / s 에 도달 

다. 

L 28 마디파라곤은 HO - PD 를 실행할 때 2.0 Gflop / s 의 속도에 도달하였 다. GEN - FET 프로 
리 속도결과가 그림 11-13 이에 제시되 였다. 

사1개의 MPP 들의 순위는 변하지 않는다. 

[28 개 마디의 기계크기 에 대 하여 와>2은 2.5 Gflop / s , 파라곤은 640 Mflop / s 에 도달하였다. 
TT 프로그람은 98 MB 의 큰 자료립 방체 를 리용한다. 16개 혹은 그이하 개 수의 마디 를 
는 소규모형 태 에 대 하여 파라곤과 T 3 D 가 둘 다 속도감소를 보여 주었 다. 

3 L _ Stag 프로그람의 속도결 과를 그림 11-13 이에 제 시하였 다. 

기 프로그람은 그것이 110.6 MB 를 초과하는 집체적통보조종을 요구하므로 큰 통신부 









병렬실행시간의 분석 

병목현상을 례증하기 위하여 세개의 MPP 들에서의 HO - PD 실행시간의 약화를 8개이 
하의 마디를 가지는 더 소규모적인 기계에 대하여 그림 11-4 자)에 제시하였다. 

그림 1 1-14 u ) 는 32-128 개 까지 의 마디를 가지 는 기 계 에 대 하여 제 시되였 다. 

매 기 계크기그름에 서 왼쪽 막대 기 는 SP 2, 가운데막대 기 는 파라곤，오른쪽 막대 기 는 
T 3 D 에 대응하는것들이다. 

디 스크접 근시 간은 파라곤의 소규모형 태 에서 만 론의 된다. 

소규모형 태 에서 병목현상은 디 스크접 근벌칙 에 의하여 발생한다. 

파라곤에 대 하여 디 스크접 근시 간은 전체 실행시 간의 약 73%인 117 s 이 다. 

병목현상은 중간 혹은 큰 개수의 마디를 가진 모든 기계들에 대하여 묶음을 이루고 
있다. 분명 히 단일마디기 계 에서 는 통신비 용이 없 다. 

집 중통신들을 위한 디 스크접근시 간은 계산과정 에서의 접근시 간보다 더 길 다. 디 스 
크접근은 제 한된 국부기 억기를 가진 기 계의 성능에서 병목현상이 다. 

디 스크접 근시 간을 제 외하면 묶음형 성 은 32 또는 그이 상 마디 를 가진 모든 MPP 들에 
서 STAP 프로그람을 실 행하는데 대 부분시 간을 소비한다. 


4마디 야 

1) 작은 기계 



I l]Di-r— 


그림 11-14 . 세 가지 MPP 에서 HO-PD 실행시 간분석 

우리는 256개이상의 마디들을 가진 초대규모기계에서의 자료는 측정하지 않았지만 
경 향성 은 변하지 않을것 으로 본다. 마디처 리 기들의 계 산능력 은 묶음형 성조작수행시 간을 
결 정 한다. 
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그림 11-15. MPP 속도성 능에 서 CCR 값의 효과 

CCR 는 통신할 필요가 없는 한마디응용구획 에서는 0과 같다. CCR 의 더 낮은 값은 
통신기 구 MPP 의 행계 산능력 보다 상대 적 으로 더 효과적 이 라는것 을 의 미한다. 

그림 11-15 에서 기계 크기에 따르는 CCR 의 변화는 EL-Stag 프로그람에 대 하여 제시되 
였 다. 

T 3 D 는 세개의 MPP 들가운데서 가장 낮고 안정한 CCR 를 가진다. 

T 3 D 는 세 가지 기 계 들가운데 서 가장 효과적 인 통신기 구로 장비되 여 있 다. SP 2 은 파 
라곤과 T 3 D 보다 더 큰 CCR 를 가지 고 있다. 

SP 2 과 T 3 D 는 둘 다 비 교할만한 통신시 간을 가지고 있는데 SP 2 에서의 통신시 간은 
T 3 D 에 비 하여 절 반이하이 다. SP 2 에 서 의 CCR 가 큰것 은 주로 SP 2 마디 의 고속처 리 기 들에 
기인된다. 

SP 2 의 전반적 인 성 능이 세개의 MPP 들가운데서 가장 높지 만 SP 2 을 위 한 더 좋은 통 
신부분체 계 를 얻 자면 T 3 D 나 파라곤에 서 보다 성 능을 더 현저하게 개 선하여 야 할것 이 다. 
그림 11-15 L ) 에서 EL-Stag 프로그람에 대한 CCR 값에 따르는 속도변화를 볼수 있다. 

속도곡선은 왼쪽 낮은 모서 리로부터 시작하여 오른쪽 웃방향으로 가면서 증가한다. 
CCR 에서 곡선이 더 증가되면 속도감소를 일으킨다. 일반적으로 CCR 값이 작으면 일부성 
능을 조절하여 속도를 더 높일수 있다. 

큰 CCR 에 대 하여 서 는 병 렬 알고리 듬이 다시 설정 되 여 야 한다. 

낮은 CCR 는 통보문넘 기 기함수를 초기 화하는데 서 낮은 쏘프트웨어，통보를 합성 또는 
분배하는데 서 통보협 조처 리 기 속도，호상련결 망에 리 용된 중계 접 속알고리 듬에 기 인된 다. 

STAP 와 같은 대 규모신호처 리 응용은 매 마디 에 서 소비 된 계 산시 간보다 훨씬 더 큰 지 연 
시 간의 조잡한 병 렬성 만을 리 용할수 있 다. 그림 11.5 자)는 T 3 D 가 3개 의 MPP 들 가운데서 
가장 작은 CCR 를 가진다는것을 보여 준다. 


통신 대 계산비 

통신 대 계 산비 ( CCR ) 는 STAP 성 능평 가실 험 들에 서 측정 된 총 계 산시간으로 총 통신시 
간을 나누는 방법 으로 정 의한다. 
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체계 리용률 

모든 세 가지 MPP 들의 체계리용률대 역 을 모든 STAP 프로그람들에 대 하여 그림 11-6 
에 제 시하였 다. 

SP 2 은 최 대 총 사용률의 약 30%에 도달하였 다. 



파라곤(그림 11-16 에 서 PAR ) 은 세 가지 기 계가운데 서 가장 낮은 사용대 역 을 가진 다. 
기 계크기 가 128일 때 16%의 사용률밖에 엄 지 못하였 다. 일 반적 으로 체 계의 리용률은 
대 부분 병 렬응용프로그람들에 서 기 계크기증가에 따라 감소한다. 

11. 6. 4. MPP 의 구성방식상의미 

MPP 성 능은 많은 하드웨 어 와 쏘프트지 원체 계 로써 특징 지 을수 있 다. 

우리 는 STAP 응용프로그람에 관하여 매 MPP 의 구성 방식적우결 함을 아래 와 같이 규 
정 한다. 

우리 는 마디구성 방식，절환형호상련결망，병 렬 I / O 부분체 계，쏘프트환경， MPI 집 중통신 
들에 대 하여 실 험하였 다. 

일 부 MPP 의 조작파라메 터 들을 표 11-12 에 제 시하였 다. 


표 11-12 _ 평가된 세가지 MPP 들의 조작파라에터들 


구성 방식 특징 

IBM SP2 

Cray T3D 

Intel Paragon 

리용된 구성과 

MHPCC 에 서 리 용된 400 

Cray Eagan Center 

San Diego Supercomputer Center 

기계측 

개 마디 가운데서 256개 

에 서 리 용되 는 64 

에 서 러 용되 는 128개 마디 


마디 리용 

PEs 


점대점지원시간과 

39 ms, 

2^s, 

30 ms, 

대역 너비 

35MB/S 

150MB/S 

175MB/S 

64개 마디 에 대 한 전체 

0.818GB/S 

1.745GB/S 

0.879GB/S 

교환의 집합대역너비 




MPI 실 행 

MPICH 

CRI/EPCCMPI 

MPICH 












마디 구성 방식 

마디구성방식은 총체적인 체계성능에 큰 영향을 준다. 

세 가지 MPP 들가운데 서 SP 2 은 거 의 모든 STAP 성 능평 가실 험프로그람들에 대 하여 속 
도와 리용측면 에 서 가장 훌륭하게 동작한다. 

256개의 SM 마디들에 대 하여 HO - PD 프로그람을 실행한 결과 가장 높은 속도가 
19.7 Gflop / s 까지 달하였 다. 이것은 주로 최 대 256 Mflop / s 의 속도와 P 0 WER 2 극소형 처 리 기 
를 위하여 설계 된 우수한 최 량콤파일 러 에 기 인된다. 

Alpha 21064는 높은 박자속도를 가지 고 있지 만 낮은 이를 리 용하였 다. Alpha 는 이 
런 리유로 하여 POWER 2 i 의하여 압도되 였 다. 64개 마디경 우에 SP 2, T 3 D , 파라곤의 상 
대속도는 각각 5:2:1 Gflop / s 이 다. 

이 비 률은 세 개 마디 처 리 기 에 대 한 상대 적 최 대 속도 5 : 3 : 2에 매 우 가깝다. 

SP 2 의 또 다른 우점은 매 T 3 D 와 파라곤마디에서의 기억기보다 큰 마디기억기를 가 
지 는것 이 다. 

실례 로 싼디아고 초고속를퓨터쎈터 에 있는 파라곤마디들의 대 다수는 불과 16 MB 의 
국부기억을 가진다. 

이 마디 에 큰 자료모임 을 적 재하면 많은 디 스크교체 를 일 으켜 성 능을 크게 떨 어 뜨 
렸 다. 

STAP 실험은 우리에게 보통의 MPP 마디는 적어도 128 MB 의 기억기를 가져야 과학과 
신호처리에서 흔히 만나는 대규모자료모임을 적재시킬수 있다는것을 보여 주었다. 

람지기 신호처 리 와 갈은 실시 간응용에서는 매우 큰 접 근지 연시 간때 문에 국부디 스크를 
전혀 리용하지 않을수 있 다. 

한편 세 가지 MPP 가 다 자기의 I 八)나 관문마디 에서 공유디스크배렬을 50 GB 까지 
증대 시 켜 대 규모자료기 지 를 응용하기 위 하여 리 용할수 있 다. 

절환형망의 확대가능성 

통신은 MPP 에 서 비 용이 더 지 출된 다. 망교통과 마디립도에 의 존하는 CCR 와 마찬 
가지 로 통신성능은 절환형망지 연시 간，대 역 너 비와 일정하게 관련되 여 있다. 

T 3 D 에서 점대점통보문넘기기는 가장 작은 지연시간 2야를 제공한다. 

SM 과 파라곤은 40 ms 이하의 지연시간을 가진다. 세가지 절환형망위상구조가운데서 
4536개 마디의 Intel/Sania ASCI Option Red 기계 [34 刀의 원본개 발에서 증명된것처 럼 파라곤 
2 D 메 쉬 가 가장 높은 크기확대 가능성 을 보여 주었 다. 

다음으로 좋은 점은 1024마디까지 확대가능한 3 D 원환체망이다. 

SP 2 의 고 성 능 절 환 기 [592] 는 Cornoll 리 론 쎈 터 [168] 에 서 전 용 형 태 ( Custom-ordered 
configuration ) 로 512개 마디 까지 확장시 켰다. 

병렬성 ！/ O 

우리 의 MPP 체 계 들에서 는 세 가지 서 로 다른 I / O 구성 방식 들이 리용되 였 다. 대 규모 
파라곤에서는 마디들이 512개의 계산마디와 16개의 I / O 마디로 분할되여 있다. 파일 I / O 는 
한개 또는 그이상의 I / O 마디를 통하여 보장된다. 
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이 마디들은 보통 2 D 메쉬의 바깥렬에 배렬된다. 기계에서의 조작체계에서는 매 I/O 
마디 도 4.8 -GB RAID -3 디 스크배 렬 에 접 속되 였 다. Intel 의 병 렬 파일 체 계 ( PFS ) 는 파일 에 대 
한 병렬접근을 제공하였다. 계산마디로부터의 모든 디스크접근은 I / O 마디와의 통보문교 
환을 요구한다. 

우리 는 망이 계 산마디 들사이 의 규칙 적 인 통보들을 전송하는데 도 리용되 므로 I / O 성 능 
이 망교통에 의하여 더 영 향을 받는다는것 을 발견 하였 다. 

여러개의 계산마디가 같은 디스크에 동시에 접근하면 열점문제가 발생할수 있다. 
SP 2 은 다른 I / O 구성방식을 가지고 있는데 매 마디는 국부디스크에 련결된다. 이 경우에 
I / O 마디와 계산마디를 구별할 필요가 없다. 

SP 2 에 서 매 계 산마디 는 완전 한 IBM / AIX 조작체 계 를 실 행 시 킨 다. 

디 스크는 매 마디 에 직 접 붙어 있다. I / O 마디 는 쏘프트웨어 에 의하여 동적 으로 정 의 
된 다. 

PFS 는 사용자가 많은 SP 2 마디들과 관련한 파일들을 생성해 낼수 있도록 한다. 

이 것은 다중자료파일들을 보존하는데서 불합리성 과 관리상 부가처 리 를 제거한다. 

T 3 D 에 서 디 스크들은 host Cray C 90 이 나 Cray - Y - MP 에 만 접 속된 다. 

I 八)마디는 I/O gateway 를 통하여 주콤퓨터에 접속된다. 매 I 八)관문은 두개의 마 
더로 구성되였는데 매 마디는 4 M 의 단어기억기(계산처리기기억기의 절반)를 가지고 
있 다. 

한개 마디는 매 방향에서 I/O 를 조종하며 체계접근과 파일접근에 리용된다. 

불필 요한 기 억기/디 스크사건들 

전형 적 인 STAP 프로그람은 한개 마디 가 매 임 풀스박자사이 에 100 MB 이 상의 탐지 기신 
호자료립 방체 를 처 리할것 을 요구한다. 

한개 마디 의 국부기 억 기 에 전체 자료립 방체 를 적 재할수 없 다. 우리 가 사용한 세 가지 
MPP 들가운데서 SP 2, T 3 D , 파라곤의 한개 마디는 기껏 64 MB 의 국부기 억을 가진다. 파라 
곤은 불과 한 마디당 16 MB 밖에 가지지 못한다. 불필요한 기 억기와 디스크 접근을 검 토해 
보았다. 

실례로 파라곤은 매 계산마디에서 극소핵심부조작체계를 지원한다. 핵심부와 봉사기 
는 6.5 MB 의 기 억기를 차지한다. 

N * 통보문완충기 는 또한 1 MB 의 기 억기를 차지한다. 이 렇게 되 면 마디프로그람에 요 
구되는 공간이 제시될 때 자료기억기로써는 8 MB 이하밖에 남지 않는다. 디스크절체(교환) 
지 연시 간은 대 규모문제 를 풀기 위 하여 소규모 MPP 구성 을 리 용하는 경 우에 흔히 발생 한 
다. 

문제 는 국부기 억기 가 전체 마디프로그람과 자료부분립방체 를 유지 하는데 불충분한것 
과 관련되 여 있다. 

I / O 는 MPP 응용프로그람에서 기본병목현상의 주요원인이다 [103]. 

불필 요한 기 억기/디 스크사건들은 분명 히 성 능효과를 떨 군다는것 을 립 증하였 다. 

소규모 MPP 가 실제적으로 리용가능하자면 마디기억기를 256 MB 혹은 그이상으로 확 
대시키는것 이 필요하다. 
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집 중통신의 최 대 화와 대 규모통신완충기리용은 MPP 를 I/O 성 능측면에 서 개 선한것 
이 다. 


OS 와 프로그람개발환경 

Cray T 3 D 는 UNICOS MAX 조작체 계 와 쌍을 이 룬다. 

UNICOS 기 능들은 PE 마디 들에 서 의 극소핵 심 부 OS 와 Y-MP 혹은 C 90 host 에 서 의 
UNICOS 로 분할된 분산형 OS 이 다. 

극소핵 심부가 설계됨 으로써 PE 에 서 실행 되 는 OS 쏘프트웨어 의 량이 최 소화된다. 따 
라서 쏘프트웨어 가 감소되 여 국부기 억기는 응용자료기 억과 프로쎄스를 위하여 개 방된다. 

쏘프트웨 어환경 의 성 능특징 에 서 T 3 D 는 가장 작은 고성 능신호처 리용으로 적 합한 성 
질들인 가장 작은 실행시 간편차와 예 비효과를 가진다. 

고속동기 화와 편성일 람표는 안정한 계 산을 위한 주요인자이 다. 

T 3 D 에서 SHMEM 서고는 짧은 지연시간의 원격 <읽기>/<쓰기>조작을 보장한다. 

게 다가 원격목표주소의 단어내 용을 자동적 으로 읽 기 위하여 원자적인 교환능력 이 보 
장된다. 파라곤은 매 계산마디 에 극소핵심부조작체계를 지원한다. 

핵 심 부와 봉사프로그람은 매 마디 에 서 6.5 MB 의 주기억 을 차지한다. 

NX 통보문완충기 는 또 다른 1 MB 의 주기 억 공간을 소비한다. 

SP 2 에서 완성된 AIX 는 매 SP 2 마디가 표준적 인 단독워크스테 이션으로서 동작한다. 

국부디 스크는 대 규모자료모임 이 다. 프로그람적 재 에 리용할수 있 다. 그것 은 통보문이 
큰 경 우에 통보문완충기 로서 리용될수 있 다. 필 연적 으로 분산형 OS 설계 는 병 렬 프로그람작 
성환경에 영향을 준다. 

우리 가 진행한 STAP 실험 에 의하면 SP 2 이 사용자한테 가장 편리하다. 

이 실험 에서는 병 렬코드개 발작업，순조로운 작업，오유형 대규모입 력 자료와 워 크스테 
이션들을 조종할 때 간단한 지원수법을 고찰하였다. 

T 3 D 에 서 의 가상주소지원의 결 함은 프로그람번역 에 서 문제 점 을 야기시키 는것 이 다. 

지 어 가상주소지원 에 큰 기 억 기 가 요구된 다는 사정 으로 하여 우리 의 일 부 코드가 번 
역될수 없었다는것이다. 

세가지 MPP 는 모두 유닉스에 기초한 조작체계들로 실행된다. 그런데 실시간적 OS 로 
는지원할수 없다. 이것은 신호체계나 거래처리와 갈은 실시간응용에서 정밀측정할 때 
몇 가지 문제 점 들을 야기 시 켰 다. 그 문제 점 은 서 로 다른 리용자들이 자원을 놓고 서 로 다 
투는 간섭 현상으로부터 발생한다. 

11.7. 참고문헌주해와 련습문제 

Congarra 등의 {212} 는 500개 의 최 고급초대 형콤퓨터 들을 분류하였 다. 고성 능콤퓨터 
시 초를 [233] 에 서 렬 거하였 다. 

이 장에 서 는 비 록 그것 이 상세한것 은 아니 라 할지 라도 많은 초대 형 콤퓨터 들과 지난 
시기의 MPP 들을 개괄하였다. 

Hwang 의 [324] 에서 초대형를퓨터에서의 병렬처리를 평가하였다. 




Caray 는 초병렬계산에 대한 책 [128] 을 편찬하였다. 

초대형 름퓨터를 위 한 병렬처리와 AI 기계들용 Hwang 파 DeGroot 의 [33이 에서 취급하 
였 다. 

Bell 의 [6 刀은 초고속콤퓨터를 평 가하였다. 

Cray T3D 는 Adams 의 [3], Koeninger 들의 [371] 그리 고 Cray 가 발표한 [174] 들에서 서 
술하였다. 

T3D 의 경험적결과는 Arpaci 들의 [4이 에서 찾아 볼수 있다. Dunigan 은 Intel 파라곤에서 
Beta 시 험자료들을 공개하였 다 [222]. 

Hwang 들의 [332] 는 MPI 성 능을 평 가하였 다. Wang 들의 [634] 은 T3D, SP2 그리 고 파라 
곤우에서의 STAP 성능을 발표하였다. 

Intel/Sandis ASCI Option Red 기 계 는 [34 刀에서 서 술되 였으며 Mattson 들의 [433] 에 도 서 
술되 였 다. 

T 犯는 [540], [541] 에서와 Cray 의 Web 폐지 [125] 에서 서술되였다. 

GigagRing 은 [539] 에서 서술되였다. Cedar 계획은 Kuck 들의 [382] 에서 발표되였다. 
NYU Ultra 를퓨터 는 Gottlieb 들의 [276] 에서 서 술되 였 다. 

모자이크는 Seitz[546] 에서 주었다. 

연구용다중스레 드화된 MPP 인 Tera 는 Alverson 들의 [2 刀에서 서술되 였다. 

TC 2000 MPP 는 BBN 기술지도서 [6 到에서 서술되였다. 

MITJ 기 계 들과 Dally 들의 [186] 에 서 서 술되 였 다. 

련결기계는 Hillis 의 [309] 에서， CM5 는 [612] 에서 각각 서술되였다. 

HEP 는 KOWalik 의 [376] 과 Smith 의 [57이 에서 서술되였다. 

Titan 초대형콤퓨터는 Siewiorek 와 Koopman 의 [55 刀에서 주었다. 

Gockney 는 [313], [318] 에 서 성 능평 가실 험 과 MPP 들을 위 한 성 능계 량화를 연구하였 다. 
병 렬계산모형 SPMD 는 Daniel 들의 [18 刀에서 특징 지 었다. 

Anderson 과 Lam 의 [35] 는 확대 가능한 체 계의 대 역 적 최 량화기 술을 고찰하였다. 

CM5 와 T3D 에 서 의 통보를 위한 구성 방식적 지원은 Karamchetti 와 chien 의 [36이 에 서 
주었 다. 

Frye 들의 [256] 은 MPP 들을 리 용할 때 외 부리 용자대 면부를 고찰하였 다. 

STAP 성 능평 가실 험 를 위한 확대알고리 듬들을 Bhat 와 prasanna 의 [79] 에 서 제 기하였 다. 
Gunther 는 MPP 가동환경우에 서 의 OLTP 를 연구 [284] 하였 다. 

Horst 는 [32 이에서 MPP 를 평가하였다. 

Blevins 의 저 자들은 MPP 를 위 한 그리 고 Hupairoj 와 해의 [472] 에 서 서 술하였 다. 
Dmflops 계 산은 Sterling 들의 [58 刀에 서 BLITZEN 구성 방식 을 제 기 하였 다 [9 이. 

우리는 또한 [655]_[65 刀에서 MPP 성능을 평가하였다. 

병 렬!/ O 의 문제 는 miller 와 Katz 의 [447], Henderson 들의 [244], Bordawekar 들의 [103], 
그리 고 Del Rosavia 와 chaudhary 의 [201] 에서 취 급하였다. 

집 중통신은 MCKINLEY 들의 [439] 에 서 완성 하였 다. 
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문 제 

문제 11.1. MPP 는 Tflop/s 의 속도를 가지는 수천개의 처리기들, GB 의 수백개 기억기 
들，그리 고 많은 TB 의 디 스크기 억까지 확장할수 있다. 

(1) 이상에서 언급한 MPP 에서의 목표를 달성 하기 위하여 요구되는 처 리 기구성방 
식 의 두가지 특징 을 추리하여 설 명 하시 오. 필 요하다면 주장을 지 원하기 위한 
실례 를 리용하시 오. 

(2) 현대 적 MPP 들이 고성 능이 되 도록 하기 위하여 필요한 4가지 체 계구성 방식적 
특징들을 갈라 내시오. 

문제 11.2. 문제 11.1 에서 갈라 낸 6가지 특징들에 대하여 

(1) Intel ASCI Option Red 체계는 6 가지 특징들을 어떻게 통합하겠는가 

(2) Cray T 3 E 체계는 6가지 특징들을 어떻게 통합하겠는가 

문제 11.3. [656] 에서 저자들이 제기한 MPP 들에 대하여 초기의 성능예측도식을 연구 
하시 오. 


NAS 묶음으로부터 성 능평 가실 험프로그람을 선택 하고 알려 진 부가처 리양상을 가지 는 
실제 적 인 MPP 우에 서 이 성 능을 예 측하시 오. NAS 그룹이 보고한 측정된 성 능에 의하여 
예견되는 성능을 실증하시오. 

문제 11.4. 다음과 같은 령 역 에서 Inel ASCI Option Red 와 Cray T 犯를 비 교하면서 매 
경 우에 상대 적 인 우결 함들을 론의하시 오. 

(1) 마디구성 방식 과 처 리 능력 

(2) 체 계호상련결 과 대 역 

(3) 기 억 모형 과 지 연 시 간은페 

(4) 순수한 프로그람작성환경 

문제 11.5. 그림 11 - 16에 제시된 자료들을 고찰하시오. 

(1) 기계크기가 8~64까지 변함에 따라 왜 파라곤의 유용성 이 증가하는가? 

(2) SP 2 이 왜 다른 두 기계들보다 높은 유용성을 가지는가? 

문제 11.6. 다음과 같은 간략화된 2 D 야꼬비완화문제에 대한 구성방식이미를 특징 짓 
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기 위하여 위상병렬모형을 적용하시오. 

문제 자료령역은 NxN 격 자점들의 정 방형들로 이루어 지는바 이것은 n 개의 부분령 
역 으로 분할된다. 이 부분령 역 은 [ N / ‘) X [ N / H ) 개 격 자점 들로 이 루어 지 며 프로쎄 스 
를 위한 마디에 배정된다. 병렬계산은 1만번의 반복으로 이루어 진다. 

매 반복에서 마디는 4개의 이웃으로부터 경계격자점들을 우선 찾고 다음에 자기의 
부분령역 에서 (서/^) x ( 尺/士)개의 격 자점 들의 새 로운 값을 계산한다. 

다음의 SPMD 코드는 병 렬알고리 듬을 설 명한다. 

표시 [•] 은 그 차원에 따르는 모든 배렬원소들이 접근될수 있다는것을 의미한다. 
M = N / sqrt ( n ); 

For ( k -0; k <10000; i ++){/* 10000 »d 반복*/ 

/* 전송단계 : 네개의 린접 으로부터 경 계값을 엄 는다*/ 

Grid [이 [.] 을 얻 기 위하여 북쪽근방으로 경 계값을 교체한다 ; 

Grid [ M + l ][.] 을 얻 기 위하여 남쪽근방으로 경 계값을 교체한다 ; 

Gird [.][0]-|- 얻 기 위하여 서 쪽근방으로 경 계값을 교체한다 ; 

Grid [ M + l ] [이을 얻 기 위하여 동쪽근방으로 경 계값을 교체한다 ; 

/* 계 산단계 : Grid 의 M * M 내 부요소를 갱 신한다*/ 
for ( i = l ; i < M + l ; i ++) 
for (卜 l ; j < M + l ; j ++) 

Grid [ i ][ j ]=( Grid [ i - l ] lj ]+ Grid [ i + l ] lj ]+ Grid [ i ] lj - l ]+ Grid [ i ] lj + l ])/4; 

} 

문제의 크기 가 매 차원에서 尺=6384개 격 자점，프로쎄스마디의 개수는 «=4, 16, 64, 
256, 1024개이 며 속도가 매 프로쎄 스마디당 100 Mflop / s 라고 가정한다. 

(1) 작업 량에서 류동소수점 총연산개수는 얼마인가? 

(2) 마디당 거 침성 은 얼 마인가? 

(3) 격 자가 류동소수점 (32- b ) 배 렬이 라고 하자. 마디당 기 억기요구는 얼마이며 통 
신완충기 에 다르는 비률은 얼마인가? 

(4) 통신요구(시동시간과 대역)는 얼마인가? I / O 요구는 I 八)속도와 I / O 자료량으로 
환산할 때 얼마인가? 

문제 11.7. 표 11-12 의 입 력 량들을 고찰하자. 파라곤과 SP 2 를 비 교하자. 


(1) 최 대 점 대 점 하드웨 어 지 연시 간과 대 역 
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(2) 사용자준위(즉 MPI) 점대점하드웨 어지 연시 간과 대 역 

(3) MPI 전체 교환성 능 

(4) 상대적인 성능들에서 몇가지 결론들을 이끌어 내시오. 

문제 11.8. 매 차원에서 N=1024, N=131072 의 격자점을 가지고 문제 11.7 을 다시 고 
찰하시 오. 

각이한 기 계 들에 대 하여 세 가지 서 로 다른 문제 에 대 한 결 과를 비 교하시 오. 

비교연구의 목적은 아래와 같이 두가지 이 다. 

(1) 기 계크기 에서의 확대 가능성 을 분석한다. 

(2) 문제크기 에 따르는 확대 가능성 을 분석한다. 

문제 11.9. 11.3 에서 ASCI MPP 자료 특히 표 1 卜3과 11.6 에 서 의 입 력 량들을 연구하여 
다음질문에 대답하시오. 

(1) 왜 COTS 하드웨 어 와 쏘프트웨어 가 다음세 대 의 초대 형 를퓨터 와 MPP 들의 구성 
을 위하여 제기되는가? 

(2) 이 두가지 표에 제시된 수값들을 모두 확증하시오. 세가지 ASCI 가동환경 
Option 이 시 간프렘 에 대 한 요구를 만족하는가? 

문제 11.10. 문제 11.9 와 같은 류사한 연구를 반복하시오. 

그러 나 여 기서 는 표 11-4 와 11.5 에 제시된 기 억기 와 쏘프트웨어의 요구를 연구하는 
데 주목하시오. 

(1) 표 11-4 와 11.6 의 입 력량들을 비 교하여 문제 11.9 에 서 의 질 문부분 니)를 반복 
하시 오. 

(2) 쏘프트웨어 지원과 프로그람개 발환경 을 위하여 ASCI 의 가동환경제 작자들을 
비롯하여 오늘의 를퓨터공업이 왜 지체되는가? 

(3) 공업 이 ASCI 요구를 만족시 킬수 없는 표 11-5 의 입력량들의 매개 에 대하여 
병 렬 프로그람쏘프트웨 어환경 에서의 발전수준에 대 한 독자들의 지식 에 기초하 
여 그 리유를 설 명 하시 오. 
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제 4 편. 병렬프로그람작성 


병 렬 프로그람작성 에 대 한 착각은 직 렬워크스테 이션의 프로그람화에 비 하여 병 렬콤퓨 
터들의 프로그람화를 보다 어렵게 만든다. 

이것이 반드시 옳은것은 아니다. 다음의 반례들을 고찰하시오. 

• 병렬기계는 대다수의 직렬응용프로그람들의 독립적이고 순차적인 실행을 보장하 
는데 리용된다. 리용자는 응용프로그람 코드를 병렬성하지 않고도 훨씬 빠른 순 
차적인 기계를 엄을수 있다. 대다수 독자들은 비록 얼마 안되는 병렬기계들이지 
만 이런 형식이 자기의 능률을 제대로 내지 못하고 있다는데 대하여 놀랍게 생 
각할것 이 다. 

• 사용자는 병 렬 기 계 에서 자료기 지쏘프트웨 어(실례 로 Oracle ) 를 실행시 킨다. 사용 
자는 워 크스테 이 션환경 에 서 와 같이 익 숙된 Oracle 기 능을 볼수 있 다. Oracle 체 계 
는 리용자가 볼수 있는 병 렬 체 계 를 자립 적 으로 리용한다. 혹은 리용자는 순차적 
인 C 프로그람을 작성하고 지능를파일러가 리용가능한 병렬성을 자동적으로 람 
색하도록 한다. 

이 상에 서 언급한 사실들을 실 현하기 위하여 우리 는 병 렬 프로그람작성문제 를 보다 신 
중하게 대 하여 야 한다. 과학원 및 공업 계통의 연구소의 연구사들은 병 렬프로그람작성실 
현방도들을 많이 창안하였다. 그런데 이것 이 명백성보다 오히 려 혼잡성을 조성하였을수 
도 있다. 

병 렬프로그람작성문제 는 본질상 세 가지 즉 공유변수，통보문넘 기 기，자료병 렬프로그 
람작성 으로 집 약되는데 이 에 대 하여서는 마지막장에서 취급한다. 

12장에서는 여러가지 병렬프로그람작성방식들(실례로 병렬프로그람작성방법)에 대하 
여 론의한다. 여 기서는 쏘프트웨어 를 비 롯하여 공유변수프로그람작성 에 대 하여 구체 적으 
로 연구한다. 

이 연구결과들은 병렬가동환경뿐아니라 직렬기계에도 리롭다. 

13장에 서 는 MPI 과 PVM 서 고를 기 본도구로 리용하여 통보문넘 기 기 형프로그람작성 에 
대 하여 취 급한다. 보아는 현재 널 리 리용되 고 있는 표준형 으로 받아들였 다. PVM 은 아직 
표준형 으로는 되 지 않았지만 매 우 안전하며 널 리 리용되 고 있 다. 

이 두가지 서 고는 자연상태 에서 호상 지원하는것들이 다. 

14장에서는 포트란 90과 HPF 에 중점을 두고 자료병렬수법에 대하여 취급한다. 

이 두가지 언어연구수법 은 MPP 에 도 제 한되 지 않는다. 

사실상 현재 SMP , CC - NUMA , Cluster , MPP Cluster 들은 모두 MPI , PVM , 포트란 90, 
HPF 들을 지원할수 있다. 
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제 1 2장. 병렬파라다임과 프로그람작성모형 


이 장에 서 는 병 렬 프로그람작성 실 현 방법 들을 취 급한다. 

우리 는 우선 흔히 리용하는 병 렬알고리 듬적프로그람들에 대 하여 론의 하고 4개 의 병 
렬프로그람작성형 태 들인 암시 적모형，공유변수모형，자료병 렬 과 통보문넘 기 기모형 들에 대 
하여 고찰한다. 

이 장에 서 는 공유변수모형 에 대 하여 구체 적 으로 취 급한다. 공유변수프로그람작성 에 서 
는 5가지 방법 이 제 기 되 여 있 다. 그것 은 ANSI X 3 H 5, IEEE POSLX thread ( Pthread ), SGI 
POWER C , OPEN MP 표준 그리고 저 자들이 개 발한 C 11 라고 하는 새로운 병 렬 C 언어 이 다. 

12 . 1 . 파라다임들과 프로그람작성능력 

병렬콤퓨터체계는 신축성이 있으면서도 리용에 편리하여야 한다. 

이 것 은 여 러 가지 병 렬 알고리 듬적 파라다임 들을 지 원하기 위 한 프로그람작성 능력 을 잘 
보여 주어 야 한다. 이 때 병 렬 알고리 듬적 파라다임 (병 렬 프로그람작성 파라다임 혹은 간단히 
파라다임 이 라고 한다.)은 병 렬체계 실행을 위 한 알고리듬구성 방법 이 다. 

12. 1 . 1 . 알고리듬적인 과라다임 

그림 12-1 에 서 요약한것 처 럼 일 련의 병 렬알고리 듬적파라다임 들이 창안되 였 다. 이 파 
라다임 들이 실제 적 인 병 렬 프로그람에서 는 흔히 여 러 가지 방법 으로 통합된다. 

참고목록체 계 에는 점번호들이 있는데 이것은 보다 구체 적 인 취급과 실례 들에 대 한 
참고표시 이 다. 

위상병렬 

1.3.3 에서 론의된 위상병렬모형은 병렬프로그람작성 에서 널리 쓰이는 파라다임을 제 
공하고 있다. 이 파라다임 은 그림 12-1 자)에 보여 주었다. 

병 렬프로그람은 일 련의 다중단계 들로 구성되 여 있 으며 매 다중단계 는 2개 의 위 상으 
로 나누어 져 있다. 

계산위상에서 다중프로쎄스 매 개는 독립적 으로 계산 C 를 실행한다. 

그이후의 호상작용위 상에 서 프로쎄 스들은 장벽 혹은 블로크통신과 같은 하나 또는 
그이상의 동기적 인 호상관련조작을 실행한다. 

다음으로 현재의 다중단계가 실행된다. 

이 파라다임은 성긴 동기화파라다임과 아겐다파라다임 으로 알려 져 있다. 

일 치 성 이 부족한 동기 는 오유수정 과 실 행분석 을 가속화하지 만 두가지 난점 을 가지 고 
있다. 그것은 호상작용이 계 산과 중복되 지 않는다는것과 프로쎄 스과정 에서의 작업 부하균 
형을 유지하기 어렵다는것이다. 
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Il 동기의 호상작용 

파라다임의 특수경 우는 동기적 인 반복파라다임 이 다. 여기서 다중단계 
e =/( 功를 반복계 산하기 위한 다음과 갈은 코드로 례 증되 는 한순환반척 
«차원벡토르이다. 


rfor ( i =0 : i<n : i ++) 


//매개가 다음과 같은 for 순환고리로 실행 




장벽 동기화에 의 하여 „개 프로쎄스가운데 어느 하나도 j 째 반복이 완전히 끝날 때까 
지 순환고리 for 의 >1번째 반복을 시작할수 없다. 



그림 12-2. 동기적 반복에서 장벽동기화 

반대 로 비동기반복파라다임 은 프로쎄 스들로 하여 금 나머 지프로쎄 스들이 따를것 을 기 
다리지 않고 다음호상련결반복으로 넘어 갈수 있도록 한다. 

이것을 아래와 갈은 코드들이 확증하여 준다. 


p arfor ( i :=0; i < n ; i ++) { 
f or ( j ：=0; j < N ; j ++) 

X [ i ]= f ( x ); 

} 

이 상에 서 언급한 코드는 결정 할수 있 다. 왜 냐하면 프로쎄 스 j 째 반복에 서 X [ i ] 가 계 
산될 때 리용되는 x [ i - l ] 이 다른 프로쎄스에 의하여 j , j - 1 , j+1 반복 등에서 계산될수 있 
기 때문이 다. 

그러나 일정한 조건에서 비동기반복알고리듬은 정확한 결과에 수렴할것이며 동기반 
복알고리듬에 비하여 빠르다. 

분할과 획득 

병렬분할과 획득파라다임은 그림 12-1 L ) 에 보여 준바와 같이 순차적 인 부분과 매 
우 류사하다. 

부모프로쎄 스에서는 자기의 과제(부하)를 여 러개의 부분으로 분할하여 일련의 자식 
프로쎄 스에 배정한다. 자식프로쎄 스는 그 과제 를 병 렬적 으로 계 산하되 결과들은 부모가 
현시한다. 과제의 분할과 결과의 현시공정은 재귀적으로 진행된다. 

획득파라다임은 고속분류와 갈은 계산에서 극히 자연스러운것 이 다. 결함은 부하균형 
을 보장하기 어려운것이다. 
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관흐름 

관흐름파라다임은 그림 12-1 n ) 에 보여 준바와 같이 일련의 프로쎄스들이 가상적인 
관흐름을 형 성한다. 

련속적 인 흐름은 관흐름에 속하며 서 로 다른 관흐름에서 실행 되는 프로쎄스는 겹 침 
식으로 동시에 실행된다. 

프로쎄스 팜 이 파라다임은 그림 12-1 근)에서 보여 준바와 같이 주종파라다임으로 
알려 져 있다. 

주프로쎄스는 병렬프로그람의 본질적이며 순차적인 부분을 실행하여 여러개의 종속 
프로쎄스들이 병렬작업을 실행하도록 한다. 종속프로쎄스가 끝나면 그 정형을 주프로쎄 
스에 통보하며 주프로쎄 스는 종속프로쎄 스들에 새 로운 과제 를 배 정한다. 

이 것은 주프로쎄 스가 모든것 을 조종하는 최 고파라다임 이라는것 을 의 미한다. 결 함은 
주프로쎄 스가 모든 부담을 걸 머 지 게 된 다는것 이 다. 

워크 풀 그림 12-1 미에 보여 준바와 같이 때로는 이 파라다임이 공유변수모형으로 
리용된 다. 

워크풀은 대역적 인 자료구조에서 실행된다. 

일련의 프로쎄스들이 생성된다. 

우선 풀안의 한가지 작업 만이 있을수 있다. 

그 어 떤 빈 프로쎄 스도 풀에 서 한가지 작업 을 맡아 실 행하면서 풀안에 서 0이 상의 새 
로운 작업 을 생 성한다. 

병 렬 프로그람은 워 크풀이 비 면 끝난다. 

이 파라다임은 작업부하가 빈 프로쎄스에 동적으로 배 당되므로 부하균형을 지원한다. 
그러 나 다중프로쎄 스들에 의하여 효률적 으로 접 근할수 있게 하는 워 크 풀실 현 이 쉽 지 않다. 
특히 통보문넘기기모형 에서 그러하다. 워크 풀은 무질서하거 나 대기렬이거 나 우선권대기렬 
일수 있다. 

12. 1 • 2. 프로그람작성능력문제 

프로그람작성능력을 일반성，이식성，구조화의 결합으로 정의한다. 

이와 갈은 개념들은 아래에 서술되여 있다. 

구조화 

프로그람은 그것이 구성체로 이루어 져 있을 때 구조화된다. 

매 구조화된 구성체는 다음의 성질들을 가진다. 즉 

• 그것은 단일입력점，단일랄뢰구성체로 고찰할수 있다. 

• 서로 다른 의미론적실체들은 구성체의 문장론에서 뚜렷하게 식별된다. 

• 련관된 조작이 프로그람의 다른 개소에 흘어 져 있는것이 아니라 한 구성체안에 
포함되여 있다. 
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병 렬프로그람작성 에서도 사정은 마찬가지 이 다. 

실례로 구조화된 구성체보다 구조화되지 못한 구성체에 대하여 형식의미론을 주기 
어 렵 다 [41]. 구조화된 병 렬프로그람은 리해 가 쉽고 다른 좋은 성질들을 가지고 있다. 

실례 로 구조화된 순차적프로그람들의 자료흐름분석 은 순수한 문장론적방법 으로 진행 
할수 있다. 

이것은 보다 효과적인 를파일러시간검사 및 최량화를 의미한다. 그러나 구조화되지 
못한 구성체들을 허용하면 우리는 중간분석(경사흐름그라프가 축소될수 있는 경우) 또는 
반복분석(일반적인 흐름그라프에 대하여) [1 刀과 같은 보다 복잡한 방법이 필요하다. 구조 
화된 병 렬프로그람작성 이 순차적 인 프로그람작성 보다 우리 에 게 더 필요하다. 

왜 냐하면 후자가 더 힘 들기때 문이 다. 그러 나 구조화방법 론이 병 렬프로그람작성 에 서 
는 부족점을 가진 다. 

구조화프로그람작성원칙은 언어구성체를 설계하는데만 적용 할 수 있는것이 아니라 프 
로그람을 설 계 할 때 에 도 적 용된 다. 

구조화된 언어 가 아닌 Fortran 을 리 용하여서도 구조화정 도가 높은 프로그람을 작성 할 
수 있다. 

한편 보다 잘 구조화된 언어 로 알려 진 C 언어 로도 구조화되 지 못하고 리해 하기 어 려 
운 프로그람을 작성할수 있 다. 

일반성 

병 렬 프로그람작성모형 이 주어 진 조건에 서 우리 는 이 구성 체 들이 여 러 가지 프로그람 
들을 렬 거하는데 서 얼 마나 유연성 이 있는가에 대 하여 흥미 를 가질 수 있 다. 

순차프로그람작성 에 대 하여 잘 알려 진 결 과는 구조화정 리 [448] 이 다. 

이 것은 임의의 류링계산함수가 임무，순차적구성，조건 ， while loop 를 리용하여 표현 
할수 있게 한다. 

만일 튜링 계 산가능성 에만 주의 를 돌리 면 모든 병 렬 프로그람작성모형 들은 그것 이 4가 
지 구조화된 순차적 인 구성체 들을 포함하고 있는것으로 하여 일반적으로는 동등한것 이 다. 

그러 나 병 렬 프로그람들을 리용하게 된 기 본동기 는 계 산속도를 높이 는것 이 다. 

때문에 우리는 일반성을 론할 때 어느 기능이 대표적인가 뿐아니라 얼마나 빨리 계 
산할수 있는가를 밝혀야 한다. 

직관성，일반성은 다음과 같은 의미를 넘기기하여 야 한다. 즉 프로그람클라스 (:와 D 
를 생각하자. £) 안의 임의의 프로그람 g 에 대하여 우리가 C 안의 프로그람 P 를 쓸수 있다. 
P 와 (2 가 모두 같은 의미론을 가질뿐아니라 P 가 G 보다 더 좋게 혹은 와 마찬가지로 실 
행되는 그런 P 라면 C 는 D 와 같든가 혹은 보다 더 일반적이다. 

다시 말하여 일반성개념은 효과성을 포괄하며 일반적인 병렬모형은 12丄1에서 론의 
된 여 러 가지 형 식의 병 렬알고리 듬적파라다임들을 효과적 으로 지 원하여 야 한다. 


이식성 

프로그람을 품은 적게 들이면서 한 기계에서 다른 기계에로 이식할수 있을 때 콤 
퓨터체계범위 에서는 이것을 이식가능성 이 라고 한다. 이 식가능성은 사용되는 언어와 
목표기 계 에 의 존되 는 상대 적척 도이 다. 실례 로 이 식가능성 은 _부터 ④까지 의 내 용을 
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포함한다. 


① 프로그람의 알고리듬을 변경시켜야 한다. 

② 알고리듬은 그대로 남아 있으나 원천코드는 변경시켜야 한다. 

③ 원천코드는 그대로 남겨 두나 재편성，재련결시켜야 한다. 

④ 실행은 직선적으로 사용할수 있다. 

또한 프로그람이 서로 다른 구성파라다임클라스의 기계들(순차적인 콤퓨터들，공 
유기 억기기계들，통보넘기기기 계들)사이 에 호환성을 보장한다면 그것은 최 대의 이 식성 
을 가진다. 

12 . 1 . 3 . 병렬프로그람작성실례 

계4장에서 고찰한 4개의 프로그람을 실례로 다시 들어 보자. 

실례 12.1. 7 C 계산문제 

7 T 계 산문제 는 다음과 갈은 반복으로 피 의 근사값을 계 산하는 문제 이 다. 

f 1 4 4 1 

K = - ；「dx~ 〉 7 - -^X — 

Jo (l + ?) + N (12.1) 

순차적인 c 코드는 수값적반복에 의하여 고의 계산과정을 따라 형성된다. 


#define N 1000000 
main() { 

double local, pi=0.0 ， w; 
long i; 
w=1.0/N; 
for(i=0;i<N;i++){ 
lical=(i+0.5)*w; 
pi=pi+4.0/(l .0+local*local); 

} 

printf( “pi is %f\n” ， pi*w); 
}/*main()*/ 


상수 N 은 문제 의 크기 이 다. N 값이 크면 보다 높은 정 확도가 보장되 나 긴 계 산시간 
을 요구한다. 
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실례 12.2. 탐지 기신호처 리 에서 목표탐색문제 

이 문제 에서 는 M * N 형의 정 렬된 점모임 을 람색공간으로 간주한다. 여 기서 일부점 들 
은 항공체 계 에서 비 행 기와 같은 목표들이다. 

수값함수 IsTarget 는 해 당한 점 이 목표인가를 시험 할 때 리용된다. 

매점들에 방향과 거리가 대응되여 있다. 

문제 는 최 소거 리 를 가지 는 목표 MaxT 를 찾는데 있 다. 

이때 순차적 프로그람에서 점 A [ i ]0] 에는 방향 /와 거 리 ) 가 대 응되 여 있다. 

#define MaxT 32 
#define M 2048 

#deinfe N 512 

int i , j ， k =0; 
float A [ M ][ N ]; 
generate the points A 



if(Is Target ( i ， j )){ 

Target [ k ] . direction = i ; 

T arget [ k ] . distance = j ; 

Target [ k ] . feature = A [ i ][ i ]; 

K = k +1; 

If ( k > MaxTarget)goto finished ; 

} 

} 

finished ; 

목표람색문제는 여 러가지 파라다임들에 의하여 해결할수 있다. 

병렬프로그람은 최 악의 상태와 평균실행시간을 줄여 야 한다. 

우선 모든 목표를 찾기 위 하여 IsTarget M * N 번 실행 한 다음 첫 MaxT 목표를 찾기 위 
하여 그것들을 분류한다. 

이와 같은 알고리듬은 최악의 상태에서 최 량적일수 있으나 첫 MaxT 점들이 두번째 
목표로 되는 경우에는 최량일수 없다. 

실 례 12.3. Gaussian 소거 문제 

Gaussian 소거 는 방정 식 12.2 와 같은 큰 선형 련 립 방정 식 을 풀기 위 한 유용한 직 접 
법 이 다. 

순차적 인 Fortran 코드는 다음과 같다. 
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real A(n,n+l),x(n) 
integer i ， j ， k ， pivot_location(l) 

do i=l,n-l 
Ipivoting 
k=i 

do j=i,n 

if(ABS(A(i ， j).LT.ABS(A(i ， k))then k=j 

end do 

swap(A(i ， i:n+1 ) ， A(i_ 1 +pivot_location( 1 ) ， i:n+1)) 

Itriangulization 

A(i ， i:n+l)=A(i ， i:n+l)/A(i ， j) 

A(i+1 :n ， i+1 :n+1 )=A(i+1 :n ， i+1 :n+1 )- 

& SPREAD(A(i ， i+l:n+l) ， l ， n_i) *SPREAD(A(i+l:n ， i) ， 2 ， n_i+l) 

end do 


!Back substitution follows : 
do i = n ， l，_l 
x ( i )= A ( i ， n + l ) 

A ( l : i - l , n + l )= A ( l : i - l , n + l )- A ( l : i - l , i )* x ( i ) 

End do 

코드는 2 개의 순환고리 로 구성되 여 있다. 첫번째 순환고리는 삼각행 렬화를 실현한다. 
둘째 순환고리는 거끌순환을 실현한다. 첫 순환고리의 매 반복 /에서 절대값이 가장 큰 
중심점의 위치가 먼저 구해 진다. 치환부분프로그람은 중심행을 한개의 /행으로 바꾼다. 
그러 면 /째 행 아래 의 /째 렬 에 따르는 A 의 모든 원소들은 령 으로 된 다. 

실례 12.4. Jacobi 완화문제 

Jacobi 완화법 은 흔히 동기 반복 Gaussian 에 서 실 현된 다. 

이것은 선형련립방정 식 사대를 풀기 위한 단순반복법 이 다. 


a n a n … a u 


_ ^ l " 



公 21 公 22 a 2n 

X 

선 


b 2 

a nl 田 n2 … a nn_ 




b n 
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우리는 A 행 렬 이 조밀하다는것 즉 그 대 다수원소들이 령 이 아니 라고 가정 한다. Jacobi 
방법은 미지벡토르 x 의 초기근사로부터 시작한다. 다음으로 여러 반복걸음을 거처 ; c 의 근사 
값들을 개 량한다. 매 반복걸음에서 계산식은 다음과 갈다. 


b 「D 

. 


厂 H a iJ 

l<j<n 


(12.3) 


새로운 ； c 의 값은 이것이 현재의 x 값에 충분히 가까와질 때까지 즉 
1=( 새 로운 ; c ,+ -; c ,_) 2 < 오차한계 가 성 립 할 때 까지 계산한다. 여기서 오차한계는 주 

\<i<n 

어 진 정의 상수이다. 


12 . 2 . 병렬프로그람작성모령 

이 절에서 는 암시 적 병 렬 프로그람작성 모형과 세 가지 명시적 병 렬 프로그람작성 모형(자 
료-병렬，공유변수，통보넘기기)을 소개한다. 

12.2.1. 암시적병렬성 

명 시 적 병 렬 성 은 프로그람작성 자가 특수언어 구성 체 들，콤파일 러 지 령 들 또는 서 고기 능 
접근을 리용하여 원천코드에 기입하는것을 의미한다. 

만일 프로그람작성 자가 병 렬성을 명백하게 기 입하지 않지만 콤파일러와 실행-시 간지 
원체 계 를 자동적 으로 규정 할수 있게 할 때 우리는 아래 에 서 취 급하게 되 는 암시 적 병렬성 
을 얻게 된다. 


병렬성콤파일러 

가장 유용한 암시 적 병 렬성 수법 은 순차적 프로그람의 자동적 인 병 렬성 이 다. 콤파일 러 
는 순차적 인 프로그람의 원천코드우에서 의존분석을 실행하며 다음에 순차적 인 코드를 
본래 의 병 렬 Fortran 코드로 변환하기 위 하여 한조의 프로그람번 역 기 술을 리 용한다. 

이와 갈은 콤파일러를 병 렬성를파일러 혹은 재구조화콤파일 러 라고 부론다. 

순차적 인 코드를 병 렬성 하는데 서 관건적 고리 는 의 존분석 이 다. 

이 의존분석은 코드에서의 자료의존과 조종의존이 같다는것을 확인한다. 

조작 A 가 조작 B 에 의존되면 A 는 B 이후에 실행되여야 한다. 두 조작은 그것들이 독 
립일 때(즉 그것들사이에 직접적이거나 간접적인 의존관계가 없을 때) 병렬로 실행된다. 

의존이 있으면 프로그람번역(역시 재구조화 혹은 최 량화로 알려 진)기술은 프로그람 
번역 을 제거하든지 아니 면 코드를 병 렬성 하는데 리 용된다. 

현존하는 대다수 분석 및 재구조화기술은 고리준위에 주목한다. 즉 Fortran 의 순환고 
리 do 든지 C 의 고리 for 에 대 한 병 렬성을 실행 하기 위하여 어떻게 하겠는가에 주목한다. 
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병렬를파일러의 효과성 

의문되는 절실한 문제점은 병렬성콤파일러가 실제적 인 순차적 프로그람으로부터 효과 
적 인 코드를 발생시키는데서 과연 효과적 이겠는가 하는것이다. 일부 기능연구들은 그것 
들이 효과적 이 지 못할수 있 다는것 을 보여 주고 있 다. University 와 Illinois 에 서 발표된 
Blume 등의 [91] 은 12개 의 순수한 성 능평 가기 준프로그람들을 리 용한 콤퓨터 Cedar 우에 서 
상업 용병 렬 콤파일 러 를 받아 들인 Kap 의 성 능을 측정하였 다. 

결 과들은 표 12-1 의 자동양식 에 제 시하였 다. 

Cedar 는 32개의 프로쎄스들로 구성된 연구용다중프로쎄스이다. 이때 매 처리기는 4 
단벡 토르관흐름이 다. 

두 병렬성과 벡토르화가 충분히 리용될 때 Cedar 체계는 128정도로 peak 가속된다. 

그러 나 표 12-1 에서 보다싶이 Kap 를파일러는 매우 제 한된 한계에서 가속된다. 거의 
절 반이하의 경 우에 1이 하로 가속된 다. 


표 12-1 _ 순수한 성능평가기준을 위한 콤파일러번역의 효과들 


프로그람 

자동 

수동 

결핍 

감소 

도입 

ADM 

0.6 

10.1 

9.6 



ARC2D 

13.5 

20.8 

1.2 



BDNA 

1.8 

8.5 

1.4 

3.3 


DYFESM 

2.2 

11.4 

2.2 

2.1 


FL052 

5.5 

15.3 

1.0 

1.1 


MDG 

1.0 

20.6 

21.0 

21.0 


MG3D 

0.9 

48.8 

18.0 

15.2 


OCEAN 

0.7 

16.7 

3.8 


8.3 

QCD 

0.5 

20.8 

8.2 



SPEC77 

2.4 

15.7 

6.8 

3.4 


TRACK 

0.4 

5.2 

6.0 



TRFD 

0.2 

43.2 

13.3 


12.7 


이 연구자들은 Kap 콤파일러가 매 코드를 어떻게 병렬성시키는가를 분석하여 기능이 
만족할만한 정 도로 되 지 못하는 기 본원 인 이 콤파일 러 가 병 렬 성 을 리용할 능력 이 없 는데 
있다고 결론 지 었다. 이것 은 연구자들로 하여금 자동병 렬성 이 편리한 수법 인가를 검 토하 
도록 자극하였다. 

그들은 12개의 프로그람을 병렬 Cedar 코드들로 수동번역하고 이미 번역된것들이 자동 
화될수 있는가를 연구하였다. 

수동으로 번역한 이 코드들의 가속화성능은 표 12-1 의 수동이라는 란에서 볼수 있다. 
이것은 Kap 로 만든 코드들에 비하여 현저히 개선되였다는것을 보여 준다. 가장 고무적인 
결과로써 수동실험에서 적용된 대다수 번역을 자동화할수 있다는것을 찾았다. 또한 이 번 
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역은 응용프로그람에 대 한 지식을 요구하지 않으며 프로그람본문으로부터 유도될수 있다. 
가장 중요한 변환들가운데서 세가지가 비공개화，병렬연역화，귀납변수의 소거들이다. 
Blume 외 의 저 자들은 여 러 가지 개 별적 인 재 구조기 술의 효과들을 연구하였 다. 

표 12-1 의 맨 오른쪽 세개의 란은 표식변환을 수동실험 으로 실현하지 않을 때 속 
도를 늦추게 하는 요인면에서 그 결과들을 보여 준다. 실례로 ADM 프로그람의 가속화 
는 비 공개화를 적 용하지 않는 경 우에 다만 m .1/9.6 일 따름일 것 이 다. 


실례 12.5. 자료의존성제거 를 위한 최 량화기술 

다음의 순차적 do 순환고리(왼쪽에 놓인)에서 명령문 Q 는 명령문 모에 의존된다. 왜냐 
하면 Q 가 모에서 계산된 변수 A 의 값을 요구하기때문이 다. 순환고리의 N 번 반복은 이 러 
한 의존으로 하여 병 렬로 실행시 킬수 없다. 비공개화기술은 A 를 매 반복 i 가 그 자체의 
비 공개 복사 A ( i ) 를 가지 도록 하는 그런 렬 로 만■둘으로써 그 의 존성 을 제 거한다. 비 공개 화 
된 순환고리 를 오른쪽에 제 시하였 다. 


Do i = l，N 
P : A =... 

Q : X ( i )= A +. 


pardo i = l，N 
P : A ( i )=... 

Q : X ( i )= A ( i )+.. 


End do 


end pardo 


아래의 순차적인 do 순환고리(왼쪽)에서 명령문 Q 는 i 째 반복에서의 계산합이 직전 
반복으로부터 엄 은 합을 요구하기때 문에 Q 그자체 에 의 존된 다. 변수 A 는 모에 서 계 산 
된 다. 

연역 수법 (기 술)은 순환고리 실 행 으로 엄 어 지 는 N 개 의 순차적 인 더 하기 렬 을 명 시 적 연 
역함수로 전환시 킴 으로써 이 의 존성 을 제 거한다. 

Do i = l，N 
P : X ( i )= … 

Q : Sum = Sum + X ( i ) 

end do end pardo 


pardo i = l,N 
P : X ( i )=... 

Q : Sum = sum _ reduce ( A ( i )) 


귀 납화는 x ( o = x ( H )* y ( o 와 같은 즉 /째 반복에서 계산되 는 x ( o 가 직 전반복으로부터 
x (/- i ) 을 요구하는 그런 순환고리명령문이 다. 

자리올림을 예견한 가산기설계에 리용하는것과 같은 기술은 귀납화로 하여 생기는 
의존성제거에 리용할수 있다. 


자동병렬성을 초월하여 

Illinois 연구는 자동병렬성 이 가능하다는것을 보여 주었다. 그러나 표 12-1 로부터 우 
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리는 비록 수동적으로라도 최량화한 코드의 효률이 TRACK 에 대하여 5.2/128=4%로부터 
MG 3 D 에 대하여 48.8/128=38&의 한계를 넘지 못한다는것을 알수 있 다. 

이 결과들은 계층적 인 공유기 억기를 가지는 기계 인 Cedar 우에서 얻은것 이 다. 통신지 
연시간이 크기 때 문에 MPP 와 COW 들은 공유기억 기 에 대 하여 성 능이 더 낮아 질수 있 다. 
를파일 러최 량화방법 을 보충하기 위하여 다른 기 술이 개 발되 였 다. 

우리 는 그가운데 서 몇 가지 중요한 기 술에 대 하여 론의한다. 


사용자지령 

사용자는 콤파일 러 에 많은 정 보를 제 공하는것 으로 병 렬성 을 지 원할수 있다. 실례 로 
호상작용병렬성수법은 병렬성된 콤파일러(혹은 실행시간체계)가 질문할수 있도록 하여 
프로그람작성자로 하여금 병렬성처리를 안내하도록 추가적인 정보를 보장할수 있게 한다. 
그러나 이 지령에서 가장 대중적인 방법은 프로그람작성자로 하여금 콤파일러지령들(역 
시 C 에 서 pragams 라고 부론다.)을 원천코드에 삽입 할수 있도록 한다. 

이 것 들은 콤파일 러 가 재 구조화작업 을 더 잘 수행할수 있 도록 하는 추가적 인 정 보를 
담은 형 식 화된 설명 문이다. 

실례 로 Convex Exemplar C 에서의 다음과 같은 코드를 고려 하여 보자. 즉 

#pragma_CNX loop_parallel 

for ( i =0; k <1000; i ++) { 

S [ i ]- foo ( B [ i ], C [ i ]); 

} 

loop_parallel 파라다임은 콤파일러로 하여금 순환고리의 몸체가 무엇인가에 무관계 
하게 직 접 뒤따르는 순환고리 가 병 렬 성 되 도록 강하게 지 향시 킨다. 를파일 러 는 의 존성 을 
검 토하기 위하여 순환고리 몸체 를 분석하지 말아야 한다. 

병렬성한 이후에 코드의 정확성을 담보하는것은 사용자들의 책임이다. 

사용자가 함수 foo 는 재입 력 될수 있으며 역 효과가 없다는것 을 알수 있다. Pragma 에 
의하여 보장된 이 응용프로그람지식 이 없이 는 콤파일 러 가 순환고리 를 병 렬성할수 없다. 
왜 냐하면 함수 foo 가 재 입 력 될수 있 으며 역 효과가 없 다는것 을 확정 할수 없기 때 문이 다. 

실행시간병렬성 

를파일러지령의 도움을 받는다고 하여 모든 병렬성이 를파일시간에 인정될수 있는것 
은 아니다. 일부가 실행시간에 나타날수 있을뿐이다. 실행시간병렬성을 실현하기 위한 기 
술이 제안되였다. 실례로 Stanford University 에서 개발된 Jade 언어에서 [51刀병렬성은 콤파 
일 러 와 실 행 시 간체 계 를 둘 다 포함한다. 

프로그람작성 자는 현존하는 순차적 인 프로그람을 시 동시 킨다. 순차적 인 프로그람을 
다중과제들로 분할하고 매 과제가 자료에 어떻게 접근하겠는가를 밝혀 주는 추가적인 언어 
구성 체 들이 리 용된 다. 콤파일 러 와 실 행 시 간체 계 는 자동적 으로 인식 하고 를파일 시 간과 실 행 
시간동안에 병렬성을 실현한다. Jade 수법은 두가지 추가적인 리득을 준다. 그것은 첫째로，병 
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렬성을 더 잘 인식할수 있게 하며 둘째로，불규칙적이며 동적인 병렬성을 자동적으로 실현 
할수 있게 한다. 


명시적병렬성 

암시 적병 렬 성 은 유리한 점 이 많다 (12.2.3 을 참고). 

그리고 병렬를파일러기술은 과학원과 공업분야들에서 활발히 연구되고 있는 수법 
(문제)들이다. 그러 나 명시적병 렬성 이 필요하다고 주장하는 사람들도 적지 않다. 그들 
의 이러한 주장은 부분적으로는 현존 자동화수단들이 기능상 시원하지 못하다는데서 
영 향을 받으며 또한 A . J . Bernstei 마 74] 이 20여 년전에 얻 은 리 론적 결과에 의 하여 영 향을 
받는데 있다. 

Berns 比 in 의 정 리 

명령행의 순차적프로그람에서 두가지 조작이 병렬로 실행될수 있겠는지 없겠는지에 
대 하여서 는 아직 결정할수 없 다. 

이 정리가 추측해 주는것은 순차적프로그람，잠재적인 모든 병렬성을 최대한으로 
탐색할수 있는 자동화기술，를파일 러시 간，실행시 간이 없다는것 이 다. 이 와 같은 리 론 
적제한성을 극복하기 위하여 두가지 해결책이 제기되였다. 

그것은 첫째 로, 12.2.2 에서 론의된바와 같이 명시 적병 렬성 을 리용하는것 이며 두번 
째 해결책은 명 령행 표현수법을 총체 적 으로 ( Bernstein 의 정 리는 명 령형프로그람에만 적 
용된 다는데 주의 ) 페지 화하는것，명 령 인식 을 더 헐하게 하는 프로그람작성언어 를 리 
용하는것 이 다. 더 론의하려 면 12.2.4 를 보시 오. 

1 2. 2. 2. 명시적병렬모령 

많은 명 시적병 렬프로그람작성모형들이 제 안되 였지 만 다음과 같은 세가지 모형 이 주 

표 12-2 자료병렬 , S 보문넘기기 그리고 공유변수프로그람 


작성모형의 기본특성 i 


특징 

자료병렬 

통보문넘기기 

공유변수 

조종흐름 

(스레 드화) 

단일 

다중 

다중 

동기 

성긴동기 

비 동기 

비 동기 

주소공간 

단일 

다중 

다중 

호상작용 

암시적 

명시적 

명시적 

자료배 당 

암시 적 혹은 준명 시 적 

명시적 

암시 적 혹은 준명 시 적 


도적이다. 그것들은 자료병렬，통보문넘기기와 공유변수모형들이다. 이 절에서는 간단한 실 
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례 를 리용하여 이 세 가지 모형 을 요약하였 으며 표 12-2 에 서 그 기 본특징 들을 개 괄하였 다. 


자료병렬모형 

이 모형은 각각 SIMD 또는 SPMD 모형들에 적용된다. 

기본취지는 다중계산마디에서의 서로 다른 자료모임에 대하여 동일한 지령이든지 프 
로그람부분을 동시에 실행시키기 위한데 있다. 본질에 있어서 자료병렬프로그람작성은 
단일한 조종스레드를 가지며 초병 렬성 은 자료모임준위 에서 실 행된다. 더우기 이 것은 대 
역적 인 이 름공간과 집 합적자료구조병 렬조작들을 가지며 성 긴동기화조작들을 리용한다. 


실 례 12.6. 함수계 산을 위한 병 렬 자료프로그람작성실 례 

다음과 같은 프로그람은 자료병 렬성의 취지를 설명 하기 위한 간단한 실례 이 다. 이 자 
료병렬코드는 고를 계산한다. 14장에서 HPF 를 공식적으로 소개하기에 앞서 여기서 HPF 
와 류사한 C 언 어 표기 를 리 용한다. 


Main 어 

Double local [ N ] , tmp [ N ] , pi , w ; 

Long I , j , t , N =1000000; 

A : w =1.0/ N ; 

B : forall ( I =0; I < N ; I ++) { 

P : local [ i]=(I - 0.5)* w ; 

Q : tmp [ i ]=4.0/( 1.0+ local [ i ] * local [ i ]); 

C : pi = sum ( tmp ); 

D : printf ( “pi is % f \ n ”， pi * w ); 

}/* main ()*/ 

이 프로그람은 4 개의 명령 A , B (두개의 부분명령 모와 Q 를 가진다.)， C , D 를 가진다. 
프로그람작성 자는 이 4개 의 명 령 문이 차례 로 한개 과정 으로 수행 된다고 가정할수 있 다. 

그러 나 명 령 문은 자료항들을 동시 에 곱하기 위 하여 갈은 연산을 수행 할수 있 다. 명 
령문 A 와 D 는 바로 보통의 순차적인 명령문들이다. 명령문 C 는 tmp 정렬의 N 개 요소 
들을 모두 더하는 연산을 수행하여 그 결과를 변수 pi 에 넘 겨 준다. 명 령문 P 는 동시 
에 N 개의 오른쪽 식을 평가하며 국부정렬의 모든 4개의 원소들을 개 량한다. 국부정 렬 
의 모든 N 개 원소들은 명령문 Q 에서의 임의의 연산이 실행되기에 앞서 명령문 모에서 
개 량되 여 야 한다. '류사한 방법 으로 tmp 원소들은 어 떤 C 에 서 의 연산이 진행 되 기전에 
명령문 Q 에서 지정되여야 한다. 

통보문넘기기모형 

통보문넘 기 기모형 은 다음과 갈은 특성 들을 가진 다. 

• 다중스레드 통보문넘기기프로그람은 매개가 자기의 고유한 조종스레드를 가지 
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고 서로 다른 코드를 실행할수 있는 다중프로쎄스로 이루어 진다. 조종병렬성 
( MPMD ), 자료병 렬성 ( SPMD ) 이 둘 다 지원되 여 야 한다. 

• 비동기적병 렬성 통보문넘 기 기프로그람의 프로쎄 스는 비동기 적 으로 실행 된다. 장 
벽 과 통신차단 즉 실 례 12.7 의 MPI Reduce 와 같은 특기조작들은 프로쎄 스를 동 
기 화하는데 리용된다. 구체 적 인 MTMD 는 오늘의 통보문넘 기기형체계 에 리롭지 
못하다는것 을 주의하여 야 한다. 

• 독자적 인 주소공간 병 렬 프로그람프로쎄 스들은 서 로 다른 주소공간을 차지한다. 
어떤 프로쎄스의 다른 변수들은 다른 처리기에 보이지 않는다. 따라서 어떤 프로 
쎄 스는 다른 프로쎄 스의 변수들을 읽 거 나 쓸수 없다. 프로쎄 스들은 실례 12.7 의 5 
개 MPI 서 고함수효과와 같은 특수한 통보문넘 기 기조작을 수행하는 방법 으로 호 
상작용한다. 

• 명시적호상작용 프로그람작성 자는 자료배 치，통신，동기 화，집 합화를 포함하여 
호상작용문제 를 모두 해 결하여 야 한다. 작업 량배 치 는 보통 소유자계 산규칙 
( owner-compute rule ) 즉 자료의 어 떤 부분을 소유하고 있는 프로쎄 스는 그와 관 
련 한 계 산을 수행한다. 

• 명시 적배 치 작업 량과 자료는 둘 다 사용자에 의하여 processor 에 배 치 된다. 설계 
화와 코드화의 복잡성 을 피 하기 위하여 사용자는 흔히 SPMD 프로그람작성 에 단 
일코드방법 을 리용하여 응용프로그람만을 실현한다. 

실 례 12.7. 7 T 함수계 산을 위한 통보문넘 기 기코드 

우리 는 다음코드에 서 MPI 를 가진 C 표기 법 을 리용한다. 독자들은 이 코드를 완전히 
리 해할 필 요는 없 다. 통보문넘 기 기 조작의 상세한 내 용은 13장에 서 론의 할것 이 다. 


#define N 1000000 
main (){ 

double local , pi , w ; 
long I , tasked , numtask ; 

A : w = l ._; 

MPI _ Init (& argc ，& argv ) ; 

MPI _ Comm _ rank ( MPI _ COMM _ WORLD , & taskid ); 
MPI 一 Comm 一 siae ( MPI 一 COMM _ WORLD ，& numtask ); 
B : for ( I = tasked ; I<N ; I = I + numtask ) { 

P : local =( I +0.5)* w ; 

Q : local =4.0 /(l .0+ local * local ); 

} 

C : MPI _ Reduce (& local ，& pi ，1 , MPI _ Double , 

MPI _ MAX ，0， MPI 一 COMM _ WORLD ); 

D : if ( tasckid ==0) printf ( “pi is % f \ n ” ， pi * w ); 

MPI _ Finalize (); 
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}/* main ()*/ 


공유변수모형 

공유기억기 모형 은 단일주소(대 역적이름짓기)공간을 가진다는데서 다른 병 렬모형 과 
류사하다. 이것은 다중스레 드화적이며 비동기 라는것 으로 하여 통보문넘 기 기모형과 류사 
하다. 그런데 자료는 단일공유주소공간에 놓이므로 뚜렷하게 배치되지 말아야 한다. 작업 
량은 명백히 혹은 암암리에 배치될수 있다. 통신은 변수가 공유화된 읽기와 쓰기를 통하 
여 음형 식 으로 진행 된 다. 그러 나 동기 화는 양형식 으로 진행 된 다. 

실 례 12.8. 7 T 함수계 산을 위한 공유변수병 렬코드 

우리는 공유변수병 렬프로그람작성모형의 개념을 C 언어와 갈은 표기법을 리용하여 설명 
한다. 


#define N 1000000 
main (){ 

double local , pi =0.0， w ; 

long I; 

A : w =1.0 /N 

B : #pragma parallel 

#pragma shared ( pi , w ) 

#pragma local ( i ， local ) 

{ 

#pragma pfor iterate ( i =0; N ; l ) 
for ( I =0; i < N ; i ++){ 

P : local =( i +0.5)* w ; 

Q : local =4.0/(1.0+ local * local ); 

} 

C : #pragma critical 

Pi = pi + local ; 

} 

D : printf ( “pi is % f \ n ” ， pi * w ) ; 

}/* main ()*/ 

12. 2. 3. L 1 I 가지 모형들의 비교 

표 12.3 은 리용자의 관점 에 서 네 가지 모형 들을 비 교한다. 우리 는 상대 적우점 들을 별 
표를 리용하여 지 적한다. 네개의 별(★★★곳)은 개 별적 인 항목들에 관하여 모형 이 가장 
우월 하다는것 을 보여 준다. 한개 의 별 (★) 은 가장 미 약하다는것 을 의 미한다. 
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상대적우점들은 임의의 모형에 대해 반드시 고유한것은 아니다. 사실상 이 모형들의 
적순위는 앞으로 변할수 있다. 


표 12-3 4가지 병렬프로그람작성모형들의 비교 


문제점 

암시적 

자료병 렬 

통보문넘기기 

공유변수 

가동환경의존성실례 

Kap, 

Forge 

Fortan 90, 

HPF, 

PVM, MPI 

X3H5 

가동환경독립성실례 


CMC* 

SP2 MPL, 

Paragon Nx 

Cray Craft, 

SGI Power C 

병렬성론점 

★ ★★★ 

★★★ 

★ 

★ ★ 

배 치 론점 

★★★★ 

★★ 

★ 

★★★ 

호상작용 

문제점 

통신 

★★★★ 

★★★ 

★ 

★★★ 

동기화 

★ ★★★ 

★★★★ 

★ ★ 

★ 

집합 

★ ★★★ 

★ ★★ 

★ ★★★ 

★ 

비정규성 

★★★★ 

★★ 

★★ 

★★★ 

의미론점 

문제점 

종단성 

★ ★★★ 

★★★★ 

★ ★ 

★ 

결정론 

★ ★★★ 

★★★★ 

★ ★ 

★ 

정확성 

★★★★ 

★★★ 

★★ 

★ 

프로그람 

작성 능력 

문제점 

일반성 

★ 

★★ 

★★★ 

★★★ 

이식성 

★ ★★★ 

★ ★★ 

★ ★ 

★ 

구조성 

★★★★ 

★★ 

★ 

★ 


암시적병렬성 

암시적 인 방법은 많은 우점 을 가진다. 거대한 축적량을 가진 현재 순차적 인 쏘프트 
가 병 렬를퓨터 에 재 리용될수 있다. 프로그람작성 자는 병 렬프로그람작성 혹은 기초적 
호 렬구성파라다임 에 대 하여 알아야 할 필요가 없다. 다만 익숙된 순차적 인 언어 를 리 
면 충분하다. 개 발된 프로그람들은 서 로 다른 병 렬 콤퓨터 들사이 에 서 이 식할수 있 다. 
명시적프로그람에 비 하여 암시적프로그람이 리해 하기 훨씬 더 쉽다. 

사용자는 호상작용과 의미론적문제점들에 대 하여 걱정할 필요가 없다. 

자료병렬 성 

자료병 렬 모형 은 단일 주소공간을 가정 하며 자료배 치 는 요구하지 않는다. 

그러나 분산형기억기기계에서 고성능을 보장하기 위하여 HPF 와 같은 자료병렬언어 
명시적자료배 치지 령 을 리용한다. 자료병 렬프로그람은 단일스레 드화되 여 있으며 성 
|■기화를 가진다. 명시적동기화에 대한 요구는 제기되지 않는다. 단일스레드화는 자로 
프로그람들이 항상 확정적 이며 교착과 livelock 에 무관계하다는것을 담보한다. 

다른 두가지 모형은 이와 같은 우점을 가지지 못한다. 성긴동기화는 그것 이 비동기 




적인 반복과 워크 풀과 같은 일부 자료병렬파라다임들을 실현하기 어렵게 한다. Fortran 
90 (현재 Fortran95) 과 고성 능 Fortran(HPF) 과 같은 두가지 명백 한 표준자료병 렬 언어 가 
있다. 이런 언어로 작성된 프로그람은 MPP, DSM, SMP, COW 와 PVP 들과 같은 넓은 
범위의 를퓨터들에 이 식할수 있다. 그러 나 비표준인 CM-5 를 위한 신와 같은 일부 콤퓨 
터 전용언어들도 있다. 

통보문넘 기 기 

사용자는 통보문넘 기 기형프로그람에 서 처 리하여 야 할 작업 량을 양형식 으로 배 치하여 
야 한다. 이 프로그람들은 다중스레 드화되 여 있으며 비동기적 이 다. 그리 고 정 확한 실행순 
서를 유지 하기 위하여 명시적동기 화를 요구한다. 그러 나 이 처 리 기들은 자기의 독립 적 인 
주소공간을 가진다. 공유변수의 읽기/쓰기로부터의 동기화오유는 일어 나지 않을것 이 다. 
통보문넘 기 기형 모형은 자료병 렬모형보다 더 유연하지 만 워 크 풀파라다임 과 대 역적자료구 
조를 관리할 필요가 있는 응용프로그람들을 지원하는데서 여전히 약점을 가지고 있다. 
널리 리용되고 있는 두가지 표준서고 PVM 과 MPI 들이 있다. 이것들은 모든 형식의 병렬 
콤퓨터에서 가상적으로 실행되며 통보문넘기기형프로그람의 이식성을 크게 돕는다. 더우 
기 통보문넘기기형프로그람들은 보통 성긴병렬성을 리용한다. 그것들은 본래의 공유변수 
모형 을 가지는 기 계 (DSM, PVP 와 SMP 와 같은 다중 처 리 기)에서 실행할수 있다. 

한편 공유변수프로그람들은 표준적 으로는 다중를퓨터 에서는 직 접 실행될수 없다. 

공유변수 

공유변수모형 은 공유된 모든 자료들이 놓이 는 단일주소공간에 존재 한다고 가정한다. 
따라서 자료배 치요구는 제 기되지 않는다. 공유변수프로그람들은 다중스레 딩이며 비동기적 
이 다. 그리 고 프로쎄스들사이의 정 확한 실행순서 를 보존하기 위하여 명시적동기화를 요구 
한다. 더우기 처리기들은 단일주소공간을 공유한다. 공유변수의 읽기/쓰기로부터 풀기 어려 
운 동기 화오유가 일 어 나기 쉽다. 아직 널 리 리용되 고 있 는 표준은 존재하지 않는다. SGI 
Power Challenge 를 위 하여 작성 된 프로그람은 Convex Exemplar 에 서 직 접 실 행 할수 없 다. 

SMP 혹은 DSM 들을 위하여 개 발된 공유변수프로그람은 MPP 와 클라스터 들과 같은 
다중콤퓨터 들에 서 실 행할수 없 다. 

공유변수(공유기 억기 )모형 이 통보문넘 기 기 모형보다 fine-grain 병 렬 성 을 더 잘 지 원한 
다는것을 잘못된 생각이다. 공유변수모형은 PVP, SMP, DSM, MPP 와 같은 임의의 병렬가 
동환경 에 서 실 행할수 있 다. 

Fine-grain 병 렬성은 기본가동환경 이 효과적 인 통신 및 동기화기구를 가지면 지 원될 수 
있 다. 공유변수프로그람은 더 큰 호상작용부가처 리 를 생 성하며 클라스터우에 서 통보문넘 
기 기 형프로그람 MPP 든지 지 어 SMP 보다 더 느리 게 동작한다. 또한 리용자들은 공유변수 
프로그람작성 이 통보문넘 기 기 형프로그람보다 더 쉽 다는것 이 다. 

이 여 론은 틀린것은 아니 지 만 결코 과학적실험 을 통하여 확증된것 은 아니 다. 

사실상 클라스터 나 MPP 들보다 SMP, PVP 들을 위하여 개 발된 응용프로그람들이 훨 
씬 더 많다. 그러나 성긴 동기화를 가지며 규칙적으로 통신패런을 가지는 새롭고 효과적 
인 병 렬프로그람들을 개 발하는데서 공유변수수법 은 통보문넘 기 기방법 보다 반드시 쉬 운것 
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은 아니다. 

공유변수모형 은 불규칙 적 인 병 렬 프로그람을 위 한것 이 다. 

이때 통보문넘기기원형을 리용하여 요구되는 호상작용을 규정하기 힘들다. 그것은 
또한 통보지적 자조작을 가능하게 하여 통보문넘 기 기형 모형의 능력 을 약화시 킨다. 

공유변수프로그람작성에서는 자료를 양형식으로 구분하여 배치하지 말아야 한다. 이 
것은 성능에 손해를 주기때 문이 다. 오유수정 에서 진행되 면 공유변수프로그람은 통보문넘 
기 기 형 프로그람이 다. 

공유변수프로그람에서 의 모든 처 리 기들은 단일주소공간에 놓이며 공유된 자료들은 
차단과 림계령역들과 갈은 동기구성에 의하여 보호되여야 한다. 풀기 어려운 동기화오유 
가 쉽게 생길수 있다. 이것은 검출하기 어렵다. 이런 문제들은 처리기들이 단일주소공간 
을 공유하지 않으므로 통보문넘 기 기 형 프로그람에 서 는 자주 나타나지 않는다. 

12. 2. 4. 다른 병렬프로그람작성모형들 

우에서 론의된 모든 병렬프로그람작성모형들은 공통적 인 계산형식을 가진다. 즉 그 
것들은 모두 명령형모형들이다. 즉 프로그람은 동작렬을 실행하도록 체계에 명령하는 지 
령들을 포함한다. 기 타 계산형삭들은 다음과 같은것들을 포함하고 있다. 

• 함수형 프로그람작성 전통적인 Von Neuman 형모형은 명령형프로그람에서 그것 
이 어떻게 실행되는가를 해설함으로써 계산을 명백하게 밝힌다. 다시 말하여 이 
것 은 프로그람의 조종흐름을 명 백하게 한다는것 (양형식 으로 표현 한다는것)을 의 
미한다. 함수형프로그람작성모형 은(역 시 자료흐름형 식 으로 알려 진) 입 력 자료와 
계 산결과사이 의 함수적관계 를 표현하고 있다. 를파일 러 와 실행시 간체 계 는 함수 
적표현으로부터 요구되 는 실 행 렬 을 생 성할것 이 다. 

• 론리 형프로그람작성 론리 형프로그람작성파라다임 은 일보 전진 이 라고 말할수 있 
다. 이것은 자료흐름도 함수관계도 밝히지 않는다. 대신에 무엇이 계산되여야 하 
는가를 밝힌다. 즉 입 력과 출력사이 에 론리 적관계 를 준다. 콤파일 러 와 실행시 간 
체 계는 론리적표현으로부터 알고리 듬을 도출하여 야 한다. 

• 학습에 의한 계 산 일부 응용프로그람사용자가 알고리 듬을 가지 고 있지 않을뿐 
아니 라 함수관계 도 론리관계 도 밝히 지 않을수 있 다. 례하면 사용자는 콤퓨터 로 
하여금 웃는 얼굴표정 을 인식하도록 콤퓨터 에 어 떻게 명 령하겠는가? 학습에 의 
한 계 산형 식 은 우선 응용프로그람을 위한 학습프로그람을 구성한다. 다음에 많 
은 실 례 들이 학습알고리 듬에 의하여 학습된다. 이 학습알고리 듬들은 결국 과제 
를 수행하도록 하는 알고리 듬들을 개 발한다. 

• 대상지향프로그람작성 이 형식 에 의하여 프로그람은 많은 대상들로 구성된다. 
이때 대상이 란 추상자료형 즉 자료구조모임(자료형)과 자료구조에 기초하여 동 
작하는 조작모임 (방법 으로 알려 진)을 의 미한다. 더 우기 대 상들은 계 승층으로 묶 
어 진다. 자식대 상은 부모대 상의 자료구조와 방법 들을 계 승한다. 
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실 례 12.9. 병 렬 프로그람작성 형 식 들의 비 교 

이제 g =( a + 的 / c 를 계산한다고 하자. 명 령형식은 다음과 같은 코드 즉 


ti = a + b ; 



로 작성할수 있 다. 

이 코드는 나누기연산에 앞서 더 하기연산을 진행하도록 규정 되 여 있 다. 함수형 식 은 

y = mul (+( a ， b )， rec ( c ));/* 여 기서 표시 < rec > 는 거물수를 의미 한다*/ 

와 같이 더 완화된다. 

론리프로그람작성 형 식은 다음과 같이 더 짧게 표현된다. 즉 / c = a + b 인 그런 );를 얻 을 
것 이 다. 

이러한 비명 령형식은 명 령형식에 비하여 많은 우점을 가진다. 

함수형 을 보자. 순수한 함수형프로그람은 다음과 같다는것 이 알려 져 있 다. 

• 일관성 함수형프로그람은 확정적이며 교착에 무관계하게 복합적이라는것이 담 
보되여 있다. 

• 추상성 사용자가 병 렬성，통신，동기 화，계 획 작성 들을 명백하게 밝힐 필요가 없 
다. 사실상 많은 문제 점들이 함수형프로그람에서는 제 기되지 않는다. 

그렇 지 만 명 령 형 식 은 다음과 갈은 우점 들도 가진 다. 

첫째 로, 이것은 대 다수 리용자들에게 익숙되 여 있는 완성된 시 간증명형 이 라는것 이 
다. 둘째로，이것은 Von Neuman 모형이 롬퓨터 하드웨어 (즉 Commodity Processors ) 와 공유 
됨으로써 효과적으로 실현될수 있다는것이다. 셋째로，이것은 함수형 프로그람작성이 훌 
륭한 성능을 가진다할지라도 많은 사람들은 여전히 명령형식을 리용할것이다. 이 명령 
형식은 많은 문제풀이들을 자연스럽게 표현하는데 리용되는 기초형식이다. 명령형식은 
오늘의 순차적콤퓨터 를 위하여 서든지，병 렬콤퓨터 를 위하여 서든지 관계 없 이 우월한 프 
로그람작성 방법 이 다. 

이 러 저 러 한 실천적 인 중요성 을 고려하여 이 책 에서 는 명 령형식 의 프로그람작성 만을 
취급한다. 
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1 2. 3. 공유기억기프로그람작성 

공유기 억 기 모형 에 기 초한 병 렬 프로그람작성 은 통보문넘 기 기 형 병 렬 프로그람작성 만큼 
발전하지 못하였다. 

통보문넘 기 기 에 리 용되 는 MPI 나 PVM 과 같은 널 리 리 용되 는 표준형 이 부족한것 이 그 
중요한 실례이다. 

현 상태 에서 는 공유기억기프로그람들이 다중처 리 기용가동환경전용언어 로 리용되 는 정 
도이 다. 이 런 프로그람들은 다중를퓨터 (MPP 나 콜라스터와 같은), 다중처 리기들사이 에서 
조차 이식성이 보장되지 않는다. 

한편 SMP 나 PVP 들을 비 롯한 모든 병 렬 콤퓨터 에 서 PVM 이 나 MPI 를 리용하는 통보문 
넘 기 기 형 프로그람들이 실행 될수 있 다. 

따라서 대부분의 현대 고성능를퓨터들은 분명히 PVM, MPI 그리고 HPF 들을 지원한다. 
SMP 나 PVP 체 계는 또한 그에 고유한 공유기 억기형병 렬언어를 지 원한다. 

실천적 인 표준형 을 만드는것 이 공유기억기형병 렬프로그람작성 에 대 한 연구개 발에서 
첫번째 과제이다. 이와 관련하여 open MP 가 중요한 의의를 가진다. 우리는 우선 다음과 
같이 가동환경 에 의존하지 않는 공유기억기형프로그람작성모형들인 X3H5, P 스레 드， Open 
MP 에 대 하여 론의한다. 

다음에 두가지 상품화된 언어 에 대 하여 론의한다. 

SGI Power C 는 구조화된 구성 체 의 적 은 모임 을 리 용하여 C 언 어 를 공유기 억 기 병 렬 언 
어로 확장한것이다. 

Cray MPP 모형 은 자료병 렬 통보문넘 기 기 및 공유기 억 기 를 위 한 기 능들을 통합한것 이 다. 

우리 는 끝으로 얼마간의 직 교구성체 (orthogonal construct) 를 추가하여 통일적 인 프로그 
탐들의 개 발을 촉진시키 는 C// 이 라고 불리 우는 새 로운 언어 를 론의한다. 통일적 인 프로그 
탐이 란 구조화되 고 유한이며 확정적 이고 통합가능한 병 렬프로그람이다. 

공유기억기표준형들 

여기에는 세가지 공유기억기프로그람작성표준형이 있다. 

X3H5 표준형 은 널 리 인정 받지 는 못하지 만 여 러 가지 상품화된 공유기 억 기 형 언 어 의 설 
계에 영향을 미친다. 

X3H5 는 OpenMP 표준으로 발전하였 다. P 스레 드는 유닉 스조작체 계 층에 서 다중스레 드 
를 위한 영향력 있는 표준형이다. 

다중스레드프로그람작성은 P 스레드와 많은 공통적인 특징을 가지고 있고 완성된 상 
업 제 품이 므로 그것 을 보여 주는 Solaris 스레 드를 리용한다. 

12. 3. 1 . ANSI X 3 H 5 공유기억기모형 

X3H5 공유기 억 기모형은 1993 년에 제출된 합법적인 ANSI 표준형이다. 그러나 이것은 
통보문넘 기 기를 위한 MPI 표준형 인것 만큼 널 리 인정 받지는 못하였 다. 

사실상 상품화된 공유기억기형체계들이 X3H5 의 많은 착상을 받아 들였지 만 아직 
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병 렬블로크 (Parallel Blocks) 

병 렬 구성 체 안에 는 병 렬 블로크 (prections … end psections) 나 병 렬 순환고리 (pdo..end pdo) 나 
단일프로쎄스 (psingle..end psingle) 구성체와 같은 작업공유형구성체들이 여 러개 있을수 있다. 

작업 공유구성체 가 아닌 임의의 코드들은 조의 매 성 원들에 의하여 중복실행된다. 병 
렬블로크는 MPMD 병 렬성을 지정하는데 리용된다. 그것은 매개 가 조의 성원에 의하여 실 
행되는 여 러 요소-부분(작업단위)으로 이루어 진다. 


병 렬순환고리 (Parallel Loop) 

병 렬 순환고리 는 SPMD 병 렬 성 을 지 정 하는데 리 용된 다. 이 것 은 모든 부분(순환렬)이 갈은 
코드를 가지는 병렬블로크의 특수한 형태로 간주될수 있다. 단일프로쎄스구성체는 코드가 단 
하나의 조성 원에 의 해서 순차적 으로만 실행하도록 명 령한다. 

그림 12-3 에서의 코드렬은 그림 12-4 에서 세개의 스레 드를 리용하는것으로 가정 하여 
묘사한것 이 다. 초기 에 코드 A 를 실 행하는 기 초스레 드 요가 있 다. Parallel 과 만나면 그것 
은 두 자식과제 Q 와 요를 만들므로 결국 조는 3개의 성원을 가지는것으로 된다. 코드 B 
는 작업 공유형 구성 체 에 들어 있지 않으므로 이 세 스레 드모두에 의하여 실행 된다. 

예 : P 0 R 

양시적장먹 A 


I-1-1 

B B B 



그림 12-4. 그림 12-3 의 X3H5 프로그람의 해 설 

병 렬블로크 (psections) 는 조의 어떤 두 성원에 의하여 실행 되 는 2 개의 부분 C 와 D 만 
을 가진다. 단일프로쎄 스코드 표는 조성 원의 임의 의 하나(례하면 效에 의하여 실행 된다. 
pdo 는 조에 의해 임 의의 양식 으로 6 번 반복실행된다. 유일한 제 한조건은 매 반복과정 이 
1개의 조성 원(스레 드)에 의하여 실행되 여 야 한다는것 이 다. 

실례 12.10. 작업-공유구성체 

작업 -공유구성 체 는 성 원스레 드사이 에 부하균등화되 도록 허 용한다. 그림 12-3 에 서 의 
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pdo 에 대한 그림 12-4 에서의 부하분포는 바로 가능한 하나의 대본이다. 스레드가 반복을 
완료할 때 그것 은 나머 지 다른 반복을 실 행하는데 로 넘 어 갈수 있 다. 

반복 F(l) 와 F(2) 이 오랜 실행시 간을 가지 고 나머지반복들은 짧은 시 간을 요구한다고 
가정 하자. 그때 스레 드 모와 Q 는 각각 F(l) 와 F(2) 을 실 행 할것 이 며 스레 드 요는 반복 F(3:6) 
을 실 행할것 이 다. 


암시 적 장벽 

은폐 된 장벽 으로 서 는 parallel, end parallel, end psections, end pdo 그리 고 end 
psingle 이 있다. 이 장벽은 또한 이 점에로의 모든 기 억접근이 일관하도록 하는 무조건적 
으로 둘러 막는 조작이 다. 암시 적 장벽 이 필요 없다면 no wait 가 추가되 여 야 한다. 이것은 
그림 12-3 의 end pdo no wait 명 령문으로 나타난다. 이제 F(l:2) 가 끝난후에 스레드 모는 
전체 병 렬 순환고리 가 완성 될 때 까지 기 다림 이 없 이 G 를 실 행하는데 로 넘 어 갈수 있 다(그 
림 12-4 를 참고). 병렬 및 작업공유구성체는 서로 련결될수 있다. 그때 내부병렬 혹은 작 
업공유구성 체 와 충돌하는 조의 성 원이 기 초스레드로 되 며 그것은 새조를 형성하는 보조 
적 인 스레드들로 분할될수 있다. 


스레드호상작용 

X3H5 모형은 스레드호상작용에 관한 여러가지 흥미 있는 특성들을 포함한다. 

• 변수는 병렬구성체내에 공유/전용속성을 가진다. 전용변수는 조의 한 성원으로 
되 며 그것 은 조의 다른 성 원들에게 는 보이 지 않는다. 공유변수는 조의 모든 성 
원들에 게 속한다(그것 들에 의하여 읽 기/변경 될 수 있다.). 

• X3H5 는 기 억기 일치성문제 에 주의를 돌리며 기 억기의 일 치성담보를 위한 방법 을 
제 공한다. 실례는 우에서 언급된 절대적장벽 이 다. X3H5 는 또한 뚜렷 한 테 두리 와 
둘러 막기조작을 제공한다. 

• X3H5 모형 은 동기 화대 상(변수)의 4가지 형 태 latch, Lock, euent, ordinal 을 소개 하 
며 초기화 및 동기화조작들과 련관된다. 표 12-4 에 그 동기화대상들에 적용할수 
있는 조작들과 가능한 상태들을 보여 주었다. 


표 12-4 _ 동기화대상의 상태와 조작들 


대상형래 

가능한 상래 

대표적인 연산 

크로스바 

비 초기 화，크로스바해 제 , 크로스바채 우기 

림계 구역 

차단 

비 초기 화，크로스바해 제，차단 

검사，차단，비차단 

사건 

비 초기 화， clear, posted 

대 기, post，clear 

순서 

비 초기 화，옹근수 

순차 


매 대상형은 초기화조작과 파괴조작을 가진다. 어떤 대상은 그것 이 어떤 다른 조작 
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에 의하여 리용되기 전에 먼저 초기화되여야 한다. 크로스바，자물쇠，사건대상은 크로스 
바해 제，자물쇠 해제，지 우기 상태 로 넘 김 으로써 각각 초기 화된다. 오디 널 ( ordinal ) 대 상은 옹 
근수값인 2항옹근수배렬 로 초기 화된 다. 어 떤 대 상은 그것 을 비초기 화상태 로 넘 김 으로써 
파괴될수 있다. 


동기 화 

자물쇠 와 사건동기 화는 7.2.2 과 류사하다. ordinal 대 상은 그 범 위 안에 서 스레 드를 동기 화 
하는데 쓰인다. 실례로 우리는 ordinal 대상을 스레드 가가 r H , •••，자들이 림계부분을 다 실 
행하기전까지는 림계부분에 들어 갈수 없게끔 지정하는데 리용할수 있다. 크로스바대상은 아 
래와 갈은 문법을 가지는 림계령역으로 리용된다. 


critical region [( latch - variable )] 
critical - sec tion—code 

end critical region 


이 구성체는 7.22 에서 본 일 반림 계 령역구성체 와 선택적 인 크로스바변수가 포함될수 있 
다는것을 제외 하고는 비슷하다. latch 를 가지지 않는 모든 림계 령역은 공통적이며 암시적 인 
것으로, 체계가 제공하는 크로스바를 가지는것으로 간주된다. 크로스바를 리용하여 다음의 
상태에서 보는것처럼 경쟁을 줄이고 병렬성을 증가시킨다. 


실 례 12.11. 크로스바를 리용한 호상배 제 

순차프로그람이 한개 처리기에서 실행될 때 mOOOs 가 요구된다고 하자. 

그것 을 100개의 스레 드로 분할하여 100개 짜기 다중처 리 기 에서 실행시켜 실행시 간을 
100 s 로 줄이 려 한다. 문제는 이때 호상배제파라다임 으로 실행되 여 야 할 림 계부분에 있다. 


스레 드 T 1 

T 2 … 

T 100 

림계 령 역 

림계령역 … 

림계령 역 


초보적인 방법은 림계령역이 호상배제를 실현하는데 리용되게 하는것이다. 매 림계령 
역이 10 s 를 요구한다고 하자. 이것은 초기의 10000 s 라는 시간에 비하면 작은것으로 보일것 
이다. 그러나 호상배제로 인하여 100개의 스레드가 그 림계령역을 각기 실행해야 하므로 
총 실행시 간은 100*10+100=1100 s 이 다. 속도개선은 다만 10000/1100=9만큼만 줄어 들뿐이 다. 

제 한된 고찰에 서 우리 는 100개 의 스레드가 50개 쌍으로 호상작용한다는것 을 알았다. 
즉 기는 T 2 과만，。은 T 4 과만，… T 99 는 T ■과만 호상배제되 여 야 한다. 좀 더 좋은 방법 은 
50개 의 각이한 크로스바변수를 리용하게 하는것 이 다. 

스레드 다 T 2 … T 100 
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림계 령역 (L0 림계 령역 (L0 … 림계 령역 (L 50 ) 

같은 크로스바를 가지는 림계령역만이 호상배제되여야 한다. 총 실행시간은 
2*10+100=120 만큼 줄어 들며 속도는 83 배로 증대된다. 

12. 3. 2. P0SIX 스레드모형 (Pthread) 

PO 況 X 스레 드는 IEEE 표준화위 원회 에 의 하여 제 안된 공식 적 인 TFFF, POSIX 1003. lc_ 
1995 스레드표준에 기초한것 이 다. 그것의 기능이 나 대면부는 Solaris 스레드와 류사하다. 이 
절에서 우리는 IEEE 표준으로부터 선택된것과 상품화된 제품들가운데서 공통적인 특성들 
에 주의를 돌린다. 

스레드관리 

스레 드서고루린은 표 12-5 에 보여 준 스레 드들을 관리하는데 리 용된다. 

Pthread_create() 루린은 프로쎄 스안에 서 새 로운 스레 드를 작성 한다. 새 로운 스레 드는 인 
수 arg 를 가진 myroutine 을 실 행한다. 

새로운 스레드의 속성은 attr 에 지정되든지 attr 가 NULL 일 때 속성의 결핍으로 간주한 
다. Pthread_create() 가 성 공되 면 0 을 귀 환하며 thread_id 안에 새 로운 스레 드 ID 를 넣 는다. 그 
렇 지 않은 경 우 오유종류를 지 적하면서 오유코드가 귀 환된 다. 


표 12-5 pthreads 에서 기초적인 스레드관리원형 


함수원형 

의미 

fait pthread_create(jpiiiTeadJ * threadjd, 
pthreadattrj ♦ attr y 

void • (*myroutine)(vo\d *), void • arg) 

스메느생성 

void pthread_exit(yo\A * status) 

在레드존재 

int pthread jo/n(pthread_t thread, void •• status) 

스레드결함 

pthreadt pthreadselfiyoid) 

스레 드호출귀 환 


까壯해心그따)루린은 접근된 스레 드를 끝내게 하고 끝난 스레 드와 성과적 으로 결합되 
는 스레 드에 의 하여 가능한 상태를 만든다. 더우기 pthread _ exit () 는 임의의 나머지 지 우기 
프로쎄 스함수들을 순서 와 반대 로 실 행하는바 그후 모든 적 당한 스레 드특유의 파괴 자가 
접근된다. 

P 此 ■ 之 e; 由 () 에 로의 암시 적 접 근은 main() 이 처 음으로 접 근된 뿌리 스레 드가 아닌 다른 
스레드인 경우에 에서 지정된 wyrowrine 로부터 귀환되게 한다. 귀환값은 

상태 를 나타낸 다. 프로쎄 스에 서 끝나는 스레드가 마지 막스레 드라면 프로쎄스는 

exit() 가 0 상태 를 가지 고 접 근되 는것 처 럼 탈퇴 한다 . p 此루린은 접 근된 스레 드의 
스레드 ID 를 귀환한다. 
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Pthreads 동기 화 

Pthreads 동기 화원형의 실례 를 표 12_5에 제 시 하였다. 우리 는 mutua 卜 exclusion ( mMtex ， 호 
상배제)변수와 conditional ( cow 成 조건)변수에 주의를 돌린다. 전자는 신호기 ( semaphore ) 구성 
체 와 류사하며 후자는 사건구성체 와 비 슷하다. 동기 화변수가 사용되 기전에 그것 이 창조 
되 여 야(초기 화되 여 야) 한다는것 을 강조해 둔다. 

사용자가 동기화변수를 사용한 다음 그것은 지워 져야 한다(기억공간비우기). 

Pthread _ mutex _ lock () 루런은 호상배 제 변수가 이 미 차단되 지 않았다면 그것 을 차단한다. 
다음 그 루린 이 귀 환되 며 접 근하는 스레 드는 mutex 를 엄 어 그것 을 자기 의것 으로 한다. 
mutex 가 이미 차단되였다면 접근스레드는 mutex 가 가능하게 될 때까지(해결될 때까지) 
차단한다. 

pthread _ mutex _ trylock () 루탄은 test _ and _ set 와 류사하다. 그것은 mutex 를 차단하고 직접 
귀환된다. 귀 환감은 mutex 가 이 미 차단되 였는가 아닌가를 가리킨다. 이 루린은 절대 로 
차단되지 않는다. 


표 12-6 Pthreads 에서 스레드호상작용원형의 실례 


함수 

의미 

pthread_mutexjnit {...) 

새 로운 mutex 변위의 ■창조 

pthreadjnutex_destroy(.„) 

mutex 변수무효 

pthread_mutex_lock {...) 

1111^&5[ 변수차 _: 

pthread 一 mutexjryhck (、- ..) 


pthreadjnutex unlock^...) 

mu t ex 변 수차 단해 

pthread_cond_init{^) 

새 로운 조건변수창조 

pthread_cond_destroy{. ‘ .) 

조건변수무효 

pthread_cond_wait {...) 

조건변수에서 대기 

pthread_cond_timedwait {.,.) 

' 조건변수에서 시간제한까지 대기 

pthreadj:ond_signal {...) 

두^사건을 통보하고 한개의 대기처리를 해제 

pthreadj:ond_broadcast {...) 

사건을 통보하고 모_如기처리를 해제 


Pthread _ mute _ unlock () 루런은 이 미 얻 었던 mutex 를 배제 하여 준다. 다시 말하여 접 근스 
레드는 해제조작이 성공되도록 mutex 의 소유자로 되여야 한다. mutex 가 해제되면 그것은 
뒤따르는 다른 스레 드에 의하여 엄 어 지 게 될 수 있 다. 

Mutex 를 기 다리 는 스레드가 있 으면 일 정짜기 는 어 느 스레드가 자물쇠 를 얻 는가 
를 결정한다. 

어떤 스레드도 mutex 를 기 다리는것을 차단하지 않으면 mutex 는 pthread _ mutex_lock 
혹은 pth ， ead _ mutex _ trylock 公로 접 근하는 다음 스레 드가 리 용되 게 될 것 이 다. 

이 때 현행스레드가 조건변수를 기 다리 는것 이 차단되 여 mutex 변수를 빈름없 이 차단하 
고 mutex 변수를 해 제한다. 

대 기 스레 드는 같은 조건 변수가 pthread _ cond _ signal () 혹 은 pthread _ cond _ 
broadcastO 로 접 근하는 다른 스레 드에 의 하여 신호를 받은후에 만 해제 되 면 현행 스레 드는 
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mutex 의 자물쇠를 얻는다. 

pthr'ead-Cond-timedwaiti) 는 대 기시 간이 한계 에 도달할 때 해제된다는것을 제 외 하면 
pthread_cond_wait() 와 비슷하다. 

Pthr ， ead _ cond _ signal () 투런은 조건변수를 기다리면서 차단되여 있는 한개 스레드를 해제 
한다. 일정짜기는 어 느 스레 드가 해제되 는가를 결정 하게 된다. Pthread _ cond _ broadcast () 투: 
린은 조건변수를 기 다리 면서 차단된 모든 스레 드를 해제한다. 

1 2. 3. 3. OpenMP 표준 

OpenMP [475] 는 DEC , Intel , IBM , Kuck & Associates , SGI , Portland 그룹，수값알고리 듬 
그룹， U . S.DOEASCI 프로그람 등과 같은 하드웨 어 및 쏘프트웨어 제작자그롭에 의하여 지 
원 되 는 공유기 억기 표준형 이 다. 그것 은 Unix 와 windows NT 가동환경용공유기 억기 API 를 
집 체 적 으로 보장하는 콤파일 러 지 령，서 고루린 그리 고 환경 변수의 모임 이 다. 

이 것 은 Unix 와 Windows NT 가동환경 을 위 한 공유기 억 기 API 를 집 체 적 으로 보장하는 
것이다. Fortran 과 결합되는 첫 표준명세서는 1997년 10월에 나왔다 [476]. C 와 C ++ 에 대 
한 지원이 계획되고 있다. 

OpenMP 의 전망 

표 12-7 에 서 OpenMP 의 전망에 기 초하여 기 존병 렬 프로그람작성 표준과 OpenMP 를 
비교하고 있다. 

우리 는 이 표를 설명하는데 pthreads 칸을 리용한다. OpenMP 그룹은 pthreads 가 기 술적 
고성 능프로쎄 스가 아닌 저준위 UnixSMP 를 목적 으로 하므로 규모변경 이 필요 없 다. 그것 은 
Fortran 결 합밖에 가지 지 못한다. pthreads 는 콤파일 러 지 령 이 아니 라 서 고수법 을 리 용하므 
로 저준위이다. 

서 고수법 은 를파일 러 최 량화를 배 제 한다. Pthreads 는 립 도가 작은 자료병 렬 성 은 아니 고 
스레 드병 렬 성 만 지 원한다. pthreads 는 주로 Unix SMP 가동환경안에 서 만 이 식 가능하고 또 지 
원된다(단일처 리기워크스테 이션을 포함하여). 


표 12-7 5개 병렬프로그람작성표준의 비교 
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parameter(N = 512, NZ = 16) 
common /setup/ npoints，nzone 
dimension field(N), ispectrum(NZ) 
data npoints, nzone / N, NZ / 

!$OMP PARALLEL DEFAULT(PRIVATE) SHARED(field ， ispectrum) 
call initialize_field(field > ispectrum) 
call compute_field(field, ispectrum) 
call compute_spectrum(field, ispectrum) 

!$OMP END PARALLEL 
call display(ispectrum) 
stop 
end 

subroutines initialize Jield and compute Jield are ignored 

subroutine compute_spectrum(field, ispectrum) 
common /setup/ npoints, nzone 
dimension field(npoints), ispectrum(nzone) 

!$OMPDO 

do i= 1, npoints 

index = field(i)*nzone + 1 
!$OMP ATOMIC 

ispectrum(index) = ispectrum(index) + i 

enddo 

!$OMP END DO NOWAIT 

return 

end 


그림 12-5. 고립 지 령 을 현시 하기 위 한 OpenMP 

우리 는 OpenMP 가 PCF 와 X 3 H 5 로부터 많은것 을 개 선한 유망한 표준형 이 라고 본다. 
그렇지만 그것이 널리 공인되기 위해서는 좋은 를파일러와 실행시간환경을 개발하는 
것이 중요하다. 

OpenMP 의 주요특징들 

OpenMP 는 orphan directiver 개 념 을 결 합하고 있 다. 

이것은 병렬구성체의 어휘론적렬에는 나타나지 않고 동적(실행)령역에 놓인다. 그림 
12-5에 서 설명 한바와 같이 부분루린 ( subroutine ) compute_spectmm 에 서 의 세 가지 지 령 이 
바로 orphan directive 이다. 그것들은 주요프로그람 (main program ) 의 병렬구성체에서 어휘 
론적 으로 닫기 지 않았지만 그 동적실행경 로안에 놓인다. 우리 는 한개 혹은 그이 상의 병 
렬 지 령 들을 리용하여 주요프로그람을 병 렬 성 하며 기 타 지 령 들을 리용하여 접 근된 
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subroutine 에서 실행을 조종한다. 이와 같은 파라다임으로 우리는 적은 코드변경으로 코드 
의 대 부분몫의 병 렬적실행 을 가능하게 할수 있 다. 

이 개 념은 또한 모둘화된 병 렬프로그람들의 개 발과 재 리용을 촉진시 켰다. 우리 는 독 
자로 하여금 X 3 H 5 (orphan directive 들을 지 원하지 않는)로 그림 12_5를 다시 작성 함으로써 
orphan directive 개 념 의 유용성 을 완전히 인식 할것 을 권고한다(문제 12.8 참고). 

를파일러지령외에도 OpenMP 는 련관된 환경변수들을 가지는 실행시간서고루린들의 
모임 을 보장한다. 그것들은 병 렬실행환경 을 조종하고 질문하는데，일 반목적자물쇠함수 
( general-purpose lock function ) 를 보장하는데，실 행 파라다임 을 규정 하는것 등에 리 용한다. 
실 례 로 OpenMP 는 처 리 량파라다임 을 허 용한다. 

체 계는 이때 병 렬령역을 실행하는데 리용되 는 스레 드의 개수를 동적 으로 결정한다. 
이것은 한개의 응용프로그람에 소비되는 시간을 늘이는 비용에 있어서 체계의 성능을 최 
대화한다. X 3 H 5 와 OpenMP 들은 류사한 병렬성지령들을 가진다. 다만 표기법에서 약간 차 
이 가 있을뿐이 다. OpenMP 는 새로운 MASTER 지 령을 포함한다. 주 ( master ) 스레드 만이 코드 
를 실 행하여 야 한다. 

OpenMP 는 X 3 H 5 보다 자료환경조종에서 보다 유연한 기능을 보장해 준다. 실례로 OpenMP 
는 그림 12-6 에서 보여 준 PARALLEL DO 지 령 에서 REDUCTION (+， sum ) 조항 ( clause ) 에 의 하 
여 감소를 지원한다. 감소변수 sum 의 전용 ( private ) 부분 ( copy ) 은 매 스레드들에 대 하여 생 
성 된다. 전용부분은 감소연산자 +에 의하여 령 으로 초기 화된다. 매 스레 드는 전용결과 
들을 계산한다. 



그림 12-6. OpenMP 에 서 계 산 
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PARALLEL DO 의 마지 막부분에서 감소변수 sum 이 그 본래 의 값과 개 별적계 산결과 
를 결합한 결과와 같아 지도록 그것을 갱신한다. 

+외의 다른 감소연산자들을 밝힐수 있다. 자동코드특징은 그림 12-5 의 DEFAULT 항 
목 ( clause ) 을 참고할수 있다. 

DEFAULT ( PRIVATE ) 는 다른 양형 식 SHARED 항목에 의 하여 다시 씌 여 지 지 않는 한 
병 렬 령역의 모든 변수들이 전용변수라는것 을 가리킨다. 이것은 또한 모든 변수들이 공유 
되 였 다는것 을 가리키 는 DEFAULT ( SHARED ) 항목이 다. 

자동 코드화는 모든 변수들을 양형식으로 렬거할 필요가 없게 한다. 이렇게 되면 
프로그람작성 자의 시 간이 절 약되 며 오유를 줄일 수 있다. 

OpenMP 는 콤파일 러 로 하여 금 가장 효과적 인 방법 을 리용하여 변수의 자동적 인 갱 
신을 실 현 할수 있도록 하는 ATOMIC 지 령 을 도입한다(그림 12-5). 

이것은 2.4.1 과 7.2.1 에서 론의한것과 마찬가지로 림계령역，자물쇠 ( lock ) 와 같은 호 
상배제하는 구성체를 초월한다. 

1 2. 3. 4. SGI Power C 모형 

SGI Power C 언어는 공유변수 병 렬지 령 ( pragmas ) 과 서 고함수를 가진 순차적 인 C 언어 
의 확장이다. 

류사하게 확장된 구성체들은 포트란에 대하여서도 제공된다. 

Power C 설계는 그것 이 구조화되여 있고 매우 간단하다는것으로 하여 효과적 이다. 이것 
은 약간의 pragma 들과 적은 수의 서고함수들뿐이다. 우리는 그것을 배우거나 리용하는데서 
쉽고 많은 형태가 공학적계산문제들에서 충분히 유연하다는것을 알고 있다. 스레드 관리를 
위한 주요구성체들은 실례 12. 12에서 해설하였다. 

실례 12.12. power C 스레 드관리 견본 

다음과 같은 power C 를 고찰하자. power C 의 구조는 그림 12_7에 제시되였다. 병렬 
parallel pragma 는 다음 블로크 1 즉 "{" 와 "}" 로 둘러 싸여 있는 코드가 병 렬블로크라는 
것 을 지 적한다. 이 때 병 렬 블로크는 하나 또는 그이상의 스레 드에 의하여 실 행 될 수 있는 
것 이 다. 공유 pragma 는 변수 x 와 : y 들이 스레 드들끼 리 공유된다는것 을 밝힌 다. 

스레드 : P Q R 

A A A 


B [0:499] B[500:999] C 


그림 12-7. power C 스레 드관리견본 

다시 말하여 X 와 ; y 가운데서 한개의 복사만이 완전히 흠 잡을데 없는 코드이다. 
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어 떤 스레드가 x 를 쓸 때 기 타 스레 드들은 수정 된 값을 보게 된 다. 국부적 pragma 는 
변수 a 와 6들이 매 스레 드에 대 하여 국부화된다는것을 지적한다. 다시 말하여 이것은 스 
레 드당 ^와 가운데 한개 복사품이 있 다는것 을 의 미한다. 어 떤 스레드가 a 를 쓸 때 기 타 
스레드들은 변화되지 않는다. 


#pragma parallel shared ( x ， y ) local ( a , b )// 병렬블로크 


code A // A 는 매 스레 드에 의 하여 중복실 행 된 다. 

#pragma pfor iterate ( i =0;1000; l ) // 작업공유구성체 

{ for ( i =0; i <1000; i++)coJe B ] 

#pragma independent {code C } 

} 

병 렬블로크범위 에서 더 하기지 령들은 명백한 병 렬구조를 나타내는데 리용된다. 지 령 
으로 설명을 달수 없는 임의의 코드 A 와 갈은것을 국부화된 코드라고 부론다. 국부화된 
코드는 항상 모든 스레 드에서 겹 친다. Pfor pragma 는 다음블로크가 작업 공유블로크라는것 
을 의 미한다. 블로크가 순환고리인것 은 다행 이 다. 

이와 같이 1000개의 반복으로 이루어 지는 작업부하는 스레드들끼리 공유한다. 

두개 의 스레 드를 리용한다고 가정 하자. 

따라서 매 스레 드는 프로쎄 스에 대 하여 500개 의 반복을 가질수 있 다. 작업분포는 균 
일하지 않아도 된다는것 에 주의 하시 오. 한 스레드가 우연히 빨라 지 면 더 많은 작업 을 
수행 할수 있 다. 

독립 적프로그람은 다음명 령 문(코드 C ) 이 병 렬 블로크안에 서 다른 작업 과 독립 적 인 스 
레 드로 실행되 여 야 한다는것 을 의미한다. 

순차적 인 코드 "A ; for ( i =0, i <1000, i ++) B ; C ; " 로부터 유도된 이 병 렬코드는 순차 
적인 코드와 같이 동일한 의미론을 가진다. 이것은 콤퓨터지령수법 즉 지령을 지워 버렸 
을 때 우리가 병렬프로그람과 꼭 갈은 함수를 계산하는 유효한 순차적 인 프로그람을 가 
지게 되는 그런 수법의 기본특징 이 다. 

pragma 들외 에 power C 언어는 스레 드관리를 위 한 얼마간의 서 고함수를 보장한다.이 
함수서고는 스레 드，스레 드 ID 등의 대 략적 인 개 수를 문의하는데 리용할수 있 다. 


동기화원형 

원형들(지 령들과 서고업무들)의 적은 개수는 다음과 같은것을 포함하는 스레드동기 
화에 리용된다. 

• 림 계 령 역 power C 는 구조화된 림 계 령 역 구성 체 를 병 렬 코드안에 서 서 로 배 제 하 
도록 하는데 리 용한다. 이 것은 lock 혹은 신호기 ( semaphores ) 와 같이 구조화되 지 
못한 구성 보다 좋은 구성 체 이 다. 

• 한개 처 리기 pragma 는 단 하나의 스레 드로 일부 코드들을 실행 할수 있다는것을 
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지적한다. 한개 처리기원형은 림계령역과 다르다는것에 주의하자. 여기서 요구되는 
모든 스레 드에 의 하여 실 행하여 야 한다. pragma X 3 H 5 에 서 표준인것 과 류사하다. 

• 동기화 이것은 좋은 표준동기화원형이다. 

• 모호장벽 표준장벽에서 모든 스레드는 동기조작에 의하여 정의된 장벽점에서 
동기 화하여 야 한다. 만일 하나의 스레드가 장벽 점 에 도달하지 않으면 다른 모든 
스레 드들은 대 기하여 야 하며 어 떤 다른 조작도 실 행할수 없 다. 모호차단은 그림 
12-8 에 제시된것처럼 이 문제를 완화시킬수 있다. 


동기 






T) 표준장벽 


L) 모호장벽 


그림 12-8. 표준차단과 모호차단의 비교 


장벽 은 더 이상 점 이 아니지 만 입 력과 출력원형 으로 둘러 싸인 령 역 ( zone ) 이 라고는 말 
할수 있다. 스레드가 입력에 도달하면 이것은 다른 스레드를 위한 대기외에 장벽령역에 
서 쓸모 있는 계산코드가 실행되도록 보장할수 있다. 그런데 모든 스레드들이 입력된 령 
역을 가지는 동안(가질 때까지) 스레드들이 장벽령역을 내보내지 않을수 있다. 

장벽령역에 쓸모 있는 계산코드를 적 당히 삽입 함으로써 모호장벽은 장벽대기부가처 
리를 크게 감소시킬수 있다. 

1 2. 3. 5. CII : 구조화된 병렬 C 언어 

우리 는 새 로운 병 렬언어 C / 八언급한 C 는 병 렬적 이다.)를 [658] 에서 제 기하였 다. 이 것 
은 표준 C 언 어 에 기 초하고 있 다. 표준 C 언 어 는 프로쎄 스호상작용과 병 렬 성 을 위하여 확 
장한 구성체들의 작은 모임과 관련되여 있다. 

C " 의 핵심부에 일관한 령역 (coherent region ) 이라고 하는 구성체가 있 다. 이 령 역은 
구조화되고 확정적이며，완결성을 가지며 구성적 인 병렬프로그람개발을 촉진시킨다. 우리 
는 C " 의 본질 적 인 특징 들만을 론의하기 로 한다. 

일관한 병렬프로그람 

병 렬쏘프트웨어 를 극복하기 위한 열쇠 는 일관한 프로그람의 개 발을 촉진시키 는 병 렬 
언어 라고 본다. 여 기서 일 관하다는것 은 다음과 갈은 특성 들을 념두에 둔것 이 다. 

(1) 완결성 (Terminative) 

프로그람들욘 항상 임의의 초기상태로부터 출발하여 실행을 끝내고 마지막상태로 들 


609 




어 간다. 

병렬프로그람이 완결되지 못할 때 무한순환고리나 교착， livelock 상태에 떨어 진다는 
것 을 상기하시 오. 


(2) 결정성 (Determinate) 

프로그람은 임의 의 초기자료상태 에 대 하여 오직 한개 의 최 종자료상태 만이 존재할 때 
확정적이다. 즉 프로그람은 자료상태모임의 1대1넘기기이다. 결정성은 프로그람결과들의 
재현을 담보하며 다른데서는 오유수정을 촉진한다. 


(3) 구성적특성 

프로그람의 의 미 론이 그자체 의 구조와 구성 요소들의 의 미 론에 의하여 유일 하게 정 의 
될 때 주어 진 총체 적 인 프로그람은 구성적 이다. 실례 로 if ( C ) R else T 의 의미 론은 그 구 
조 《 if (…) ".else …》와 구성요소 C , R , T 들의 의미론에 의 하여 구성적으로 정의된다. 

이 구성적특성은 프로그람개발을 촉진시키며 리해를 쉽게 해춘다. 


(4) 구조화 

프로그람이 구조화된 구성체들로 이루져 있을 때 주어 진 프로그람은 구조화된것이 
다. 이때 매 구조화된 구성체는 몇가지 특성들 즉 

• 단일입력자료단일출력자료구성체 

• 서로 다른 의미론적대상들은 문장론적구성체의 견지에서 명백히 식별된다. 

• 관계연산들은 프로그람안의 서 로 다른 개 소들에 분산되 여 있는 대신에 한개 구성 
체안에 서 닫겨 져 있 다. 

와 갈은 특성들을 가진다. 

병렬구성체 

변수와 식의 C 정의와 순차적 인 블로크는 대괄호쌍으로 닫겨 진 명 령렬이 라고 가정 
한다. 즉 {5| S 2"'5 n } 

MPMD 병 렬 은 병 렬 블로크리용을 밝힌것 이 다. 
par [ region _ name _ declarations ] {5 i S 2...5 n } 

여기서 매 성분 公는 다른 병렬블로크와 같은 임의의 프로쎄스일수 있다. 최량령역이 
름선언은 간단히 론의한다. CU 역시 속기표기，명확한 SPMD 병렬성을 위한 병렬순환고리 
구성체를 가진다 


parfor ( i = el ; e 2; e 3) /* 순환고리첨수변수를 가지는 순환고리머 리부*/ 
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[ region _ name _ declarations ] 

{ S } /* 순환고리몸체*/ 

순환고리머 리 부에 있는 식 el , el , e 3 들은 순차고리 와 류사한 파라다임 으로 순환고리 
첨수값들의 모임 / = {7^/2 ，…， /„} 을 생성 하는데 리 용된다. 즉 

/ = 0 ;) = el ; whtte ( e 2){/ = / u { i }； e 3;} 

이다. 

n (/) (혹은 간단히 «) 가 /의 원소개수라고 하자. 

병 렬 순환고리 구성 체 는 «(/) 개 의 프로쎄 스들을 생 성한다. 이 때 매 프로쎄스는 식 별 코 
드 S 의 복사이며 매개는 서로 다른 첨수값을 리용한다. 병렬 for 순환고리는 등가적인 병렬 
블로크를 위한 속기표기 로 볼수 있 다. 일 반적 으로 parfor(el ; e 2 ; e 3) {이는 


par {{ S ( Il ) HS ( I 2)}，"{ S ( In)n 와 등가이 다. 


실례로 병렬블로크 par { Process ( 1 )• • - Process ( n )} 은 parfor ( i = 1 ; i <= n ; i ++) 

{ Process ( i )} 와 등가이 다. 

여기서 / = {1,2, •••，비이다. 

순환고리 머 리 부는 임 의 의 순환고리 몸체 명 령 문이 실 행 되 기 에 앞서 완전한 첨 수값모임 
/를 생 성하는것 과 등가이 다. /는 항상 유한이다. 한편 행 렬 순환고리 는 parfor (/=1 ; ; /++) 
{•이의 경우처럼 끝나지 않을것이다. 

/가 빈모임이면 병렬순환고리는 빈 명령문 ” 과 등가이다. I 는 순환고리머리부 
에서 단독으로 평 가된다. 혼돈을 피 하기 위하여 C // 는 el 과 必이 부작용이 없으며 e 3 
은 순환고리첨 수변수에만 영 향을 줄것 을 요구한다. 


일관한 령 역 (coherent Region ) 

병 렬 블로크(혹은 병 렬 for 순환고리 )의 요소처 리 기 들은 말하자면 론리정 연한 령역 들을 
통하여 호상련결된다. 이러한 령 역은 예약어 core 에서부터 출발해서 선택 령역 이름, 선택 령 
역 조건 그리 고 선택 령 역 몸체 를 서 술한다. 

core region _ name ( region _ condition ) 

{ 

region_bady 

} 

령역은 이름을 가질수도 있으며 가지지 않을수도 있다. 

이름을 가진 임의의 령역은 다음과 같이 par 블로크(혹은 별렬순환고리)의 앞에서 선 
언된 령 역이름을 가져 야 한다. 즉 
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region region_name [ particlpant _ list ]; 


이여야 한다. 

여기서 선택부속자목록은 호상련결을 위한령역을 리용하는 모든 프로쎄스들(령역의 
부속자라고 하는)을 일일이 렬거한다. 이 목록이 정확하게 기록되지 못하였을 때 병렬 
블로크의 모든 요소처 리기들이 주어 진 목록의 부속자들이다. 

령 역조건은 부작용이 없는 론리식 이 다. 령 역조건이 성 립하지 않을 때 조건표현은 항 
상 TRUE 인것 처 럼 고찰한다. 이 름 붙은 령 역 이 관계 자에 의해 호출될 때 모든 령 역호출 
에서 조건들은 식별되여야 한다. 

령 역몸체 는 병 렬 명 령 문과 순차적명 령 문들의 렬 로 이 루어 진다. 순차적 명 령 문은 (조건) 
대입명령문렬을 포함한다. 

병렬부분은 다음과 갈은 명령문 즉 

• 배정. 

• “ var = op (식 );” 형 식 의 집 합적 배 정 

여기서 op 는 귀납이든지 주사조작이다. 이것들은 “ sum _ reduction ” ，” minimum _ 
scan ” 들과 같은것들이다. 

• “if (조건)배정” 이든지 ” if (조건)집합적배정” 형식의 조건적배정. 조건은 임의의 
부작용을 가지 지 말아야 한다. 

들을 포함한다. 

매 병 렬토막은 단일배정규칙을 만족시켜 야 한다. 이 규칙은 변수에 한개 이상의 토막 
을 배 정할수 없 다는것 을 말해 준 다. 

일관한 령역의 의미론 

프로쎄 스가 core 요에 도달되 면 그것 은 령역 요의 관계자들도 core 요에 도달될 때 까지 
대 기 한다. 

그러면 이 령역에 대하여 령역조건은 등가이다. 조건이 FALSE 와 등가이면 모든 부 
속과 프로쎄 스들은 조건 이 TRUE 로 될 때 까지 대 기한다. 그러 면 모든 부속자들이 령 역 
몸체를 실행 하기 위하여 령역을 병 렬로 입 력시 킨다. 몸체 가 실행된후에 모든 부속자들 
은 그 각자의 차후계산을 실행하기 위한 령역을 남겨 둔다. 이름 불지 않은 령역의 부속 
자만이 그것에 접근하는 프로쎄스라는데 주의하자. 

령 역조건의 평 가와 령 역몸체 의 실 행은 자동적 인 트랜잭 션 이 라고 본다. 령 역몸체 (우 
리는 령역의 모든 몸체들은 단일령역으로 결합된다고 가정한다.)는 다음규칙에 따라 실 
행된 다. 
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프로쎄 스호상작용지 원 

일관한 령역은 만능적인 구조이 다. 통신화와 집 약화들은 실례 12.13 과 12.14 들에서 
각각 보여 준다. 동기화는 어 떻게 실현하는가를 그림 12-9 에 제시하였 다. 

일반적 으로 원자적 령역동기화 혹은 림계 령역동기화는 무조건적 인 이름 붙지 않은 일 
관한 령역에 의하여 실현된다. 조종동기화는 이름 불은 령역에 의하여 실현되며 자료동기 
화는 조건적인 일관한 령역에 의하여 실현된다. 경쟁적인 호상작용은 프로쎄스들이 공유 
자원 에 대 한 경 쟁 을 통하여 호상작용하는 때 를 의 미 한다. 

기 타 모든 호상작용을 협 동적 이라고 부론다. 

보통 협동적호상작용들은 경쟁적 인 호상작용이 이름 붙지 않은 조건령역 에 의하여 
실현되는 동안에 이름 불은 무조건적령역에 의하여 실현된다. 

실례 12.13. C // 에서 통신화를 어떻게 실현하는가 

다음과 같은 병렬블로크가 교환，방송，집단내 방송 그리고 조건적배정을 어떻게 실 
행할수 있겠는가를 보여 준다. 즉 그것 은 

parfor(i=0;i<n;i++) 
region Region 1; 

卜. 

core Region 1 

{a[i]=d; //I 대 n 방송 

b[i]=e[f[i]] ; //f[I] 가 m 개의 

c[i]=c[i+l mod n]; //자리바꿈 
if ( I %2==0) left[I+l]=right[I-l]=u[i];} 

} 


조건부적배정은 통신에 대 한 일부 프로쎄스들을 위하여 쓸모 있다. 실례 로 유일하 
게 번호 붙여 진 프로쎄스들만 수값우에서 언급한 령 역 에서 u[i] 값들을 내보낸다. 

완전한 토막은 병렬배정이다. 

특히 “c[i]=c[i+l mod n]” 을 위 한 병 렬배 정 부분은 
c[0], c[l], … ， c[n-l] = c[l], c_ c[n-l], c[0] 

과 등가이 다. 

Regionl 의 실 행마지 막에 정 렬 C 의 왼쪽 밀 기연산 즉 new c[0]=old c[l], new c[l]=old 
c[2], •••, new c[n-l]=old c[0] 와 같이 연산이 수행된다. 


:즉 d 는 a [이，…, a[n-l] 로 방송된다. 
서로 다른 값과 갈으면 m 대 n 방송 

//조건부적 배정 


실 례 12.14. C // 에 서 집 약화가 어 떻 게 실 현되 는가 

집 약적호상작용의 다른 형 식은 프로쎄스들이 그 값들가운데 일부값들을 모아 놓을것 
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을 바라는 경우가 생성된다. 

이 호상작용형은 집 약화연산자(즉 귀납과 증상)를 통하여 지원된다. C // 은 사용자들 
이 자체의 집 약화연산자들을 정의 할수 있게 하기 위 한 기구들을 보장한다. 

다음과 같은 코드는 n _ 차원배 렬 A 의 기 둥도표 

hist [ i ] (for i =0， l ， …， ) 

를 계산한다. 

그것 은 병 렬 순차토막의 리용은 물론 감소연산자의 리용을 설 명한다. 

Parfor(I=0;I<n;I++) 

Region R; 

{core R 

amax = max _ reduction ( A [ i ]); /* 변수 amax 에 A 의 최대값을 배정*/ 

amin = mon _ reduction ( A [ i ]); /* 변수 amin 에 A 의 최소값을 배정*/ 

seq 

binsize =( amax - amin )/ binnumber ; 

parallel 

bin [ i ]=1+( a [ i ] - amin )/ binsize ; 

parallel 

hist [ bin [ i ]]= count _ reduction ( bin [ i ]); 

} 

} 

count_reduction 연산자는 매 자료값의 발생수를 계산한다. 

C // 언어의 현상래 (Status of The C// language) 

이 프로그람작성언어는 어느 한 연구쎈터에서 활발히 진행되는 연구과제이다. 

C " 의 수많은 실례프로그람들이 작성 되 고 콤파일되 여 일부 SMP 와 클라스터화된 병 
렬를퓨터상에서 실행되였다. C // 에 대한 를파일러는 아직 개발되지 않았다. 그 효과성을 
검증하자면 완전한 C // 언어정의와 를파일러들이 대단히 요구된다. 

우리 는 병 렬프로그람작성연구집 단에 확대 가능한 병 렬콤퓨터체 계상에서 C // 를 실행할 
수 있는 를파일 러 전처 리기 그리 고 실시 간서고들을 개 발할것 을 호소한다. 

12.4. 참고문헌주해와 련습문제 

여 러 가지 책 들에 서 병 렬 알고리 듬적 파라다임 들을 론의 하였 다. 이 런것 들가운데 서 가장 
최 근의 결 과들은 [111] 에 서 취 급하였 다. [78] 에 는 동기 화 혹은 비 동기화된 반복알고리 듬 
들이 포함되여 있 다. 

[13 이은 세 가지 파라다임 들 즉 일정조작파라다임，결 과，전문가파라다임 들을 론의 하였 
다. [63] 은 선형 체 계 에 리 용된 견본들을 론의하였 다. 

[6 이， [367], [647], [669] 들은 병 렬 를퓨터 기 술에 대 한 좋은 참고서 이 다. [91, 92] 은 병 렬 
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콤파일러에 대한 연구결과들을 취급하였다. [292]. 

여기서는 Stanford SUIF 콤파일러가 SPEC 92 와 SPEC 95 와 같은 순차적인 성능평가기준 
프로그람들이 효과적 으로，병 렬적 으로 널 리 리용된다는것을 보여 주었다. 공유변수프로 
그람작성 에서 가장 큰 문제점은 표준형들이 없는것 이 다. ANSI X 3 H 5 표준형 은 현재 피동적 
이 며， X 3 H 5 공유기억기 표준형 은 공업 적 으로 실현되 지 못하고 있 다. 

[3 刀로부터 는 병 행프로그람에 대 한 좋은 결 과들을 찾아 볼수 있 다. 

실천적 으로 대 다수프로그람작성 자들은 적 합한 프로그람작성 언어(즉 GI power C 언어 
Crag craft ) 혹은 스레 드서 고(즉 Solaris 스레 드든지 P 스레 드들)가운데 서 어 느 하나를 리 용 
한다. 

OpenMP 표준은 공유기억기 다중처 리파라다임 을 단일 화할수 있 다. 

P 스레 드는 유력한 IEEE/ANSI 표준이 며 [345] 에서 서 술하였 다. 많은 상업 용조작체 계 들 
은 P 스레 드와 류사하거 나 호환성 있는 스레 드모형 을 실현하였 다. 

구체적 인 스레 드체 계들은 [192, 193, 340, 601] 에서 서 술하였 다. X 3 H 5 표준형 은 [39] 에 
서 취 급하였 다. 

OpenMP 표준은 [475, 476] 에 서 술되 여 있 다. 그리 고 cray craft 모형은 [48 이에서 취 급하 
였 다. [166] 은 Exemplar 기 계 우에 서 의 공유기 억 기 프로그람작성 모형 을 서 술하였 다. 

SGI [54 刀에 의하여 pow 와 C 프로그람작성모형 이 개 발되 였다. 이 것은 Fomin 과 류사 
한 모형 이 다. 일 관한 령 역 구성 체 와 C 언 어 는 [658] 의 저 자들 이 제 기한것 이 다. 

함수형 언어 를 리용한 병 렬 프로그람작성 은 [24] 에 서 론의하였 다. 

대 상지향수법 들은 [15] 에 서 서 술되 였 다. C ++ 를 리용한 병 렬 프로그람작성 은 [645] 에 서 
주었 다. 분산형 계 산체 계 를 위 한 프로그람작성 언 어 는 [58] 에 서 개 괄하였 다. 

문 제 

문제 12.1. 다음과 같은 프로그람작성능력개념을 해설하는데 병렬언어구성의 구체적 
인 실례 와 계 산실례 들을 리용하시 오. 


(1) 구조성 

(2) 일반성 

(3) 이식성 

문제 12.2. 암시 적 및 명 시 적 병 렬 프로그람작성 모형 을 비 교하시 오. 

(1) 일반성을 제외하고 병렬조종，자료배정，호상작용，의미론과 프로그람능력과 관 
련한 거의 모든 문헌들에서 왜 명시적모형이 암시적모형보다 우월한가를 설 
명 하시 오. 

(2) 많은 병 렬 및 분산형 콤퓨터 가동환경 들에 서 암시 적 를파일 러 수법 의 리용을 방 
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해 하는 주요제 한조건 들을 지 적 하시 오 

문제 12.3. 아래 의 파라다임 들을 리용하여 두개 의 옹근수배렬 들의 내 부결 과를 계 산하 
는 병렬 코드를 쓰시오. 순차적 인 코드는 

sum =0; for ( i =0; i < N ; i ++) sum = sum + A [ i ]* B [ i ]; 

(1) 단계방법 

(2) 분할과획 득 

(3) 관흐름 

(4) 프로쎄스광 

(5) 프로쎄 스머 리 부 

문제 12.4. 병 렬 프로그람작성모형 에 대 한 다음의 문제 에 대 답하시 오. 

(1) 왜 통보문넘 기 기모형 이 배 정문제 에 대 하여 공유변수모형보다 나쁜가. 

(2) 왜 통보문넘기기모형이 동기화，의미론 그리고 이식가능성문제에서 공유변수 
모형에 비하여 우월한가 

(3) 왜 암시 적모형 이 일 반적 인 모형 에 서 공유변수모형 에 비 하여 나쁜가 

문제 12.5. 크기 가 N = 100,000와 N = 10,000,000인 두 문제 에 대 하여 ?r 값을 계 산하기 

위한 SPMD 병 렬 프로그람을 작성 하시 오. 

임의의 공유기억기 언어 와 가동환경우에서 독자의 코드를 개 발하고 시 험하여 야 한다. 
프로그람은 1, 2, 3, 4, 5, 6, 7, 8 프로 쎄 스 들을 리용하여 서 로 다른 크기의 기 계 에서 

락관적 으로 실 행하여 야 한다. 이 련습에 는 다음과 같은것 들이 포괄되 여 야 한다. 

(1) 완성되고 잘 정리된 순차적인 병렬프로그람 

(2) 가동환경 과 언어，콤파일 러선택, 서 고，환경파라메터 들，실행파라다임 들(묶음/ 
호상작용，독립/공유)，시간측정 등을 포함한 시험환경과 절차들에 대한 해설 

(3) 순차적실행시 간，병 렬실행시 간，속도，가속도，효률 및 리용을 포함하여 측정 
한 일람표화 및 계획표화성능수들 

(4) 측정 결 과분석，관찰에 주의 를 돌리 며 기 계크기 와 문제크기 의 리용과 확대 가 
능성에 대한 해설 

문제 12.6. 아래 의 내 용들에 대 한 병 렬 프로그람을 작성 하기 위하여 스레 드표기 를 리 
용하시 오. 

(1) 계산문제 


617 



(2) 야꼬비완화문제 

(3) 가우스소거문제 

(4) 목표탐색문제 

이 장에서 명백 히 주지 않은 구체적 인 표기들을 정의하시오. 

문제 12.7. 아래 의 병 렬 프로그람을 작성 하기 위하여 X3H5 표기 를 리 용하시 오. 

(1) 계산문제 

(2) 야꼬비완화문제 

(3) 가우스소거문제 

(4) 목표람색문제 

이 장에 서 명 백하게 주지 않은 구체 적 인 표기 들을 정 의하시 오. 

문제 12.8. 리 용의 간편성과 코드의 효과성의 견지 에서 X 3 H 5 와 OpenMP 를 비 교하시오. 

(1) X 3 H 5 로 그림 12-5 를 다시 그리고 그림 12-5 의 코드와 그것을 비교하시오. 

(2) 계 산을 위 한 X 3 H 5 코드와 OpenMP 코드를 (그림 12_6)비 교하시 오. 

문제 12.9. 다음과 같은 문제 들을 위 한 병 렬 프로그람을 작성 하기 위 하여 SI Power C 
표기 술을 리용하시 오 

(1) 계산문제 

(2) 야꼬비완화문제 

(3) 가우스서고문제 

(4) 목표람색문제 

(5) 이 장에서 명백 히 주지 않는 구체적 인 표기를 정의하시오. 

문제 12.10. 문제 12.6, 문제 12.7, 문제 12.9 들에서 리용된 표기법들을 비교하되 사 
용의 간편성，그것들이 병렬과 집중통신을 얼마나 잘 지원하는가 하는 견지에서 비교 
하시 오. 

문제 12.11. 왜 동기화구성이 필요한가를 보여 주는 확실한 실례를 드시오. 크로스바 
를 리용하여 밝히 는데 서 실 례 12.11 의 파라다임 을 따르시 오. 
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제 1 3장. 틍보문넘기기프로그람작성 


이 장에서는 처 리되는 마디들사이 에서 넘기 기되는 통보문에 의 한 병 렬프로그람작성 원 
리 들을 상세하게 론의한다. 우리 는 PVM 과 MPI 와 같은 두가지 널 리 알려 진 령 역 통보문넘 
기기체계를 리용함으로써 병 렬처 리를 달성 하기 위하여 어떻게 하여 야 하는가를 론의한다. 
이 두가지 인정되여 채용되고 있는 체계들은 여 러 분야에서 얻은 연구결과이 다. 이것들은 
둘 다 선행한 프로그람작성 체 계 들의 유용한 많은 특징 들을 결 합한것 이 다. 

1 3. 1 . ■보문넘기기방식 

이 절에서 분산형병렬성을 개발하기 위한 통보문넘기기수법을 특징 짓는다. 기초개념 
블은 12.2.2 에서 이 미 밝혔다. 보다 상세한것들은 이 절에서 설명한다. 

13. 1 • 1 . 틍보문넘기기서고 

많은 통보문넘기기쏘프트웨어가 최근 몇해동안에 생성되였다. 가장 영향이 큰 마디 
들의 일 부를 표 13-1 에 제 시하였 다. 

이 체계의 지적자는 참고문헌과 Web 자원목록에서 찾아 볼수 있다. 


표 13-1 _ ■보문넘기기쏘프트웨어 


이름 

판매자 

구별되는 특징 

Cmmd 

Thinking Machines 

낮은 지연시간을 위한 활성통보문리용 

Express 

Parasoft 

집중통신과 I/O 

Fortran-M 

Arginne National Lab 

모듈성과 결정성 

MPI 

MPI Forum 

널리 리용된 표준 

Nx 

Intel 

Intel 하이퍼립 방체 Mpps 로부터 시 작 

P4 

Argonne National Lab 

통합공유기억기와 통보문넘 기 기 

PARMACS 

ANL/GMD 

주로 유럽 에 서 리용 

PVM 

Oak Ridge National Lab 

광범 히 리 용，단독체 계 

UNIFY 

Mississippi State 

MPI 와 PVL 호출을 허 용하는 체 계 

Zipcode 

Livermore National Lab 

문맥개념에 기여함 


초기 통보문넘기기체계에서 리용한 일부 좋은 착상은 PVM 와 MPI 표준들에 보충되였다. 
말단사용자는 새 로운 통보문넘 기 기응용프로그람을 개 발하기 위하여 PVM 혹은 MPI 
들을 리 용할것 을 요구하였 다. 기 타 체 계 들은 널 리 리용할수 없든가 이 식할수 없는것 으로 
하여 대다수는 시대적으로 뒤떨어 진것으로 된다. 
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사실상 대 다수 병 렬콤퓨터판매 자들은 PVM 이 든지 MPI 를 선행한 독립 적 쏘프트웨 어 를 
교체하여 통보문넘 기 기를 위한 고유한 지 원체 계 로 리용한다. 

이 묶음들에 대하여 아래에서 간단히 개괄한다. 

독점 적 쏘프트웨 어 

CMMD[618] 는 사유기계 CM-5 체계에서 리용된 통보문넘기기 형서 고이 다. 특징적인 
사용자공간통신은 통신지연을 감소시 키 기 위한 능동통보문기구에 기 초한다. 

Parasoft 회 사에서 나온 Express software [372] 은 프로그람작성환경 이 다. 

이것은 병렬 I/O 과 마찬가지로 점대점과 집체적통보문통신을 둘 다 지원한다. 

Nx [502] 는 Int 의 MPP (즉 초립 방형 과 파라곤)를 위 하여 개 발된 극소핵 심 부체 계 이 다. 
이것은 InteVSandia ASCI TFLOP 체계에서 PUMA 라는 새로운 극소핵심부로 교체되였다. 


공개 령 역 쏘프트웨 어 

Fortran-M[24 刀은 공유기 억과 통보문넘 기 기를 둘 다 지 원하기 위 하여 설계된 Fotran 
77 에 로 확장된것 이 다. 통보문넘 기 기지원만이 현재 실행되 고 있다. 

언 어 는 확정 적 인 동작을 제 시 하는 모둘명 령 프로그람개 발을 촉진시 키 기 위 한 많은 기 
구를 보장한다. 

P4 는 병 렬처 리기를 위한 병 렬프로그람 [118] 에 의거한다. 

P4 는 많은 구성 방식들사이 에서의 이 식가능성 을 의 미한다. 

PARMACS[3 이는 P4 로부터 개 발된 통보문넘 기 기 형 묶음이 다. 

pvm4 MPI 

대 다수의 중요하고 대 중적 인 통보문넘 기 기 쏘프트웨 어 묶음들은 MPI 와 PVM 들이 다. 

MPI 는 MPI Forum 에 의 하여 개 발된 함수서 고의 표준적 정 의 이 다 (MPI Forum 은 병 렬 콤 
퓨터 판매 자들, 서 고서 술자들, 응용프로그람전문가들의 광범 한 련 합체 이 다.). 

이 정의는 주요병 렬콤퓨터판매 자들전체 가 리용한것 이 다. 

PVM 은 서 로 다른 Unix 를퓨터 망우에 서 병 렬 응용프로그람실 행 을 위한 자체 포함공개 령 
역 쏘프트웨 어 체 계 이 다. 

시간이 지남에 따라 점점 일반화되므로 SMP 들, PVP 들, MPP 들, 워크스테 이션의 클 
라스터，그리 고 PC 들에 적 합하다. 

1 3. 1 . 2. 틍보문넘기기모령 

통보문넘기 기체 계 에서는 모든 호상작용조작들을 통신，동기 화，집 중화라고 간주하면 
서 통신이라는 용어를 사용하는것이 습관으로 되여 있다. 

따라서 2.4.2 에서는 호상작용방식을 흔히 통신화방식 이 라고 부론다. 

통신은 보통 같은 그룹사이에서 나타난다. 그러나 그룹사이의 통신은 또한 일부체계 
들(즉 MPI) 에 의하여 지 원된 다. 

이 것은 사용자가 리해하여 야 할 통신방식의 세 가지 측면이 다. 즉 
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• 얼마나 많은 프로쎄스들이 포함되는가? 

• 프로쎄스들이 어떻게 동기화되는가? 

• 통신완충기가 어떻게 관리되는가? 

세 가지 통신방식 들은 현재의 통보문넘기기체계 에서 리 용된다. 

우리 는 리 용자의 관점 에 서 아래 에 세 가지 서 로 다른 방향의 송신 (send) 과 수신 
(receive) 쌍을 리용한 이 통신방식들을 서술하기로 한다. 

우리 는 착상을 실 현해 보기 위하여 다음과 같은 코드실 례 를 리용한다. 

실례 13.1. 통보문넘기기에서 송신과 수신완충기 

다음과 같은 코드로 프로쎄스 모가 변수 보에 포함된 통보문을 프로쎄스 Q 에 송신한 
다. 여기서 Q 는 변수 S 에 포함된 통보문을 받는다. 


프로쎄스 P ： 

M =10 

LI : send M to Q ; 

L 2; M =20; 

Goto LI ; 


프로쎄스 Q： 

S=_100 

LI : receive S form P ; 

L 2: X=S+1; 


변수 M 을 흔히 송신통보문완충기(혹은 송신완충기 ) 라고 부르며 S 를 수신통보문완충 
기(혹은 수신완충기 ) 라고 부론다. 


동기적통보문넘기기 

프로쎄스 모가 동기적으로 send M to Q 를 실행 할 때 이것은 프로쎄스 Q 가 동기적으 
로 receive S from 요를 실행 할 때 까지 대 기 한다. 

두 프로쎄스는 통보문 보이 송신되거 나 수신될 때까지 송신통보문과 수신통보문으로 
부터 귀환되지 않는다. 

이것은 우의 코드에서 변수 표가 11로 평 가되 여 야 한다는것을 의 미한다. 

우의 코드에서 send 와 receve 가 귀환될 때 련이어 실행되는 명령문 L2 에서 보은 모에 
의하여 즉시 덧씌여 질수 있으며 S 는 Q 에 의하여 즉시 읽혀 질수 있다. 

동기통보넘기 기 에서는 추가적 인 완충기 가 필요 없다는것을 강조해 둔다. 수신통보문 
완충기 S 는 들어 오는 통보를 잡을수 있다. 


송신/수신 차단 

송신차단은 통보가 송신될 때까지 귀환되지 않는다. 이것은 통보변수 보이 안전하게 
재차 씌여 질수 있다는것을 의미한다. 송신이 귀환될때 그에 대응하는 수신은 시작할 
필요도，끝낼 필요도 없다는것 을 언급해 둔다. 

우리 가 알고 있는것은 다만 통보가 보에서 탈퇴했다는것 이 다. 이것 을 수신했을수도 
있 다. 그러 나 망체 계 의 어 떤 곳에 송신 하는 상태 에 서 림 시완충되 여 있 을수도 있 으며 수 
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신마디의 완충기에 이것이 도달하였을수도 있다. 

수신차단은 그에 대응하는 송신을 기 다리지 않고 프로쎄스가 귀환될수 없다. 

송신/수신차단에 의하여 우의 코드에서 표는 11로 평가되여야 한다. 체계는 통보문 
넘기기차단방식을 위한 림시완충기를 제공하여야 한다는것을 강조해 준다. 

송신/수신비 차단 

송신비 차단은 그에 대응하는 수신을 기 다리지 않고 프로쎄스가 그것에 도달하면 실 
행된다. 송신비차단은 체계 에 통보문 M 을 송신하게 되 여 있다는것을 알려 준 즉시 귀환 
될 수 있다. 통보문자료가 보에 서 탈뢰 할 필 요는 없 다. 그러 나 M 을 덧 쓰는것 은 안전하지 
못 하다. 

수신비차단은 그에 대 응하는 송신을 기 다리 지 않고 프로쎄 스가 그에 도달하면 실 행 
된다. 그것은 체계에 수신할 통보문이 있다는것을 알려 준 즉시 귀환될수 있다. 

통보문은 이미 도착하였을수도 있고 오는 도중일수도 있으며 송신되지 않았을수도 
있다. 비차단방식 으로는 이 두가지 프로쎄 스의 관계속도에 따라 표가 11，12 혹은 -99 로 
평가될수 있다. 

체계는 비차단통보문넘기기를 위하여 림시완충기를 제공할수도 있다. 


세가지 방식의 비교 

이 세 방식은 표 13-2 에서 비교한다. 

동기방식은 두가지 주요우점을 가진다. 

• 첫째 로, 동기 의미 들이 명 백 하고 리용하기 쉽 다는것 이 다. 프로쎄 스가 송신루린으 
로부터 귀 환하면 통보가 송신되 고 수신되 였 다는것 을 명 백하게 알수 있 다. 

• 둘째 로，분리된 자료완충기는 사용자나 체 계 설정할 필요가 없다. 통보문 보은 
수신자프로쎄 스주소공간의 S 로 직 접 복사될수 있다. 결 함은 송신자가 수신자의 
대 답을 기다려야 한다는것 이 다. 

실제적인 병렬체계에서는 동기방식 정의의 변수들이 있 다. 

실례로 일부 체계들에서 동기송신은 대응하는 수신이 시동되였지만 끝나기전에 시동 
될수 있다. 

동기 방식 은 다른 뜻으로도 해 석할수 있 다. 비 동기 라는 말은 차단，비차단방식 과 같 
은 동기 아닌 방식 에서 쓸수 있다. 차단，비차단방식 은 거의 모든 통보문넘 기 기체 계 에서 
리용되 고 있 다. 

그것들은 둘 다 동기송신대기시간을 줄인다. 그러나 비동기송신에서는 충분한 림시완 
충공간이 있어야 한다. 

왜 냐하면 그에 대 응하는 수신 이 시 동되 지조차 않았을수 있 으므로 수신한 통보문을 
저장해둘 기억공간을 알수 없기때문이다. 비차단방식은 대기시간을 최소한 줄인다. 그러 
나 그것은 추가적인 문제점을 야기시킨다. 

실 례 13.1 에 서 코드가 비차단 송신/수신을 리용한다고 가정 하자. 

명령문 M =20 은 통보문 보이 송신되기전에 실행될수 있다. 

따라서 새 로운 값 20은 값 10대 신에 Q 에 넘기기된다. 
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수신자측에서 명령문 X = S +1 는 P 에서 통보문 (10 이든지 20의 둘가운데서 하나)이 "에 
도달하기전에 실행될수 있다. 

낡은 값으로 보의 -100 이 리용될수 있다. 이 와 같이 불필요한 동작을 수정하려 면 통 
보문넘기기체계가 프로쎄스로 하여금 작업을 계속하기에 앞서 안전하게 될 때까지 기다 
리 도록 억제하는 기 능인 확인，대 기 상태 를 보장하여 야 한다. 이 런 기 능으로는 실례 13.1 의 
코드가 아래 와 같이 지 적할수 있 다. 


표 13-2 __ 세가지 ■신모형들의 비교 


통신사건 

동기 

차단 

비 차단 

출발조건을 보내 기 

송신과 수신 

송신 

송신 

보내기복귀를 가리 킨다 

통보문수신 

통보문송신 

초기 화된 통보문송신 

의미론 

명백 

중간 

오유 

완충통보문 

요구되지 않음 

요구 

요구 

상태 검사 

요구되지 않음 

요구되지 않음 

요구 

대기부가처리 

가장 높다 

중간 

가장 낮다 

통신과 계산에서 중복 

아니 

예 

예 


프로쎄 스 P： 

M =10; 

L : send M to Q : 

Do some computation 
Which does not change M 

Wait for M to be sent 

M =20; 


프로쎄스 Q ： 

s=-100 

receive S form P ; 

do some computation 
which does not use S 

wait for S to be received 
X = S +1 


완충기공간은 체계가 자동적으로 제공할수도 있고(실례 SP 2 에서) 사용자가 직접 배 
정할수도 있 다(실 례 MPI 에 서 ). 이 두가지 경 우에 사용자는 코드를 개 발할 때 이 문제 에 
관심을 돌려야 한다. 만일 완충기공간이 충분히 보장되지 못하면 체계는 실패하거나 병 
렬프로그람이 교착된다. 비차단방식을 사용하게 된 주요한 동기는 뛰 여넘기 ( overlap ) 통신 
과 계산을 수행할 필요가 제기된데 있다. 이것은 통보문이 넘기기될 때 프로쎄스가 통보 
문넘기기를 간섭 함이 없이 련속 계산을 실행할수 있도륵 한다. 이와 같은 뛰여넘기는 분 
산통보문프로쎄스가 달린 기 계들에서 매 력적 이 다. 그러 나 비차단은 추가기 억공간，완충기 
배정，완충기로서 통보문복사 및 꺼내기 그리고 추가대기기능실행과 갈은 불합리성을 초 
태한다. 이러한 부가처리는 콤퓨터에 의한 뛰여넘기는 통신기의 리익이 없다. 또한 이와 
갈은 뛰여넘기효력을 적용할수 있을만한 충분한 자료를 보장하지 못한다. 따라서 이와 
관련한 앞으로의 연구가 필요하다. 
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1 3. 2. 틍보문넘기기형대면부 ( MPI ) 

보아는 통보문넘기기형함수의 서고를 위한 표준적인 정의(규정)이다. 

MPI 는 MP/Foraw 에 의 하여 개 발되 였 다. 보아는 공동령 역 (Public-Domain), 가동환경 과 
무관계한 통보문넘 기 기 형서고는 표준형 을 제 공함으로써 이 식불가능성 을 가지 게 된다. 

MPI 는 이 서 고를 언어 와 무관계한 형식 으로 서술하며 포트란 C 와의 결합을 보장한다. 
이 정의는 조작체계，하드웨어，임의의 판매자들에만 국한된 어떤 특징도 포함하지 않는다. 

이러한 리유로 하여 MPI 는 병렬계산분야에서 널리 쓰이고 있다. 보아는 Windows 를 
리 용하는 IDMPC 의 모든 주요 Unix 워 크스레 이 션，모든 주요병 렬 콤퓨터 들에 서 실 행 되 고 있 
다. 이것은 통보문넘기기를 위한 MPI 를 리용하여 표준 C 나 포트란우에서 작성된 병렬프 
로그람이 수정없이 단일 PC, 워크스테 이션，워크스테 이션망， MPP, 임의의 판매 자，임의의 
조작체 계 에 의하여 실 행 될 수 있 다는것 을 의 미한다. 

PI 설 계 의 우점 은 MPI 가 4 개 의 직 교개 념 에 기 초한 유력한 기 능을 제 공한다는데 있 다. 
사람들은 이 개념들을 개별적으로 배울수 있으며 이 개념들의 결합이 잘 정의된 의미 
론적패 런을 따른다는것 을 알고 있다. MPI 는 PVM 보다 훨씬 더 많은 200 개 이상의 함수 
들을 보장한다. 그러 나 저 자들의 경험 에 의하면 직 교설계 가 PVM 보다 MPI 가 배우고 
리용하는데 쉽 고 편 리 하다는것 을 보여 준다. 

4 가지 개념은 통보문자료형태，통신기들, 통신조작，가상형태이다. 첫 세 개념을 고찰 
하면서 그것들이 통보문넘기기에서 가장 기초적이며 가장 널리 쓰인다는것을 알수 있다. 

MPI 에서 병렬문제 

MPI 는 프로쎄스가 시작할 때 어떻게 개입되며 실행되도록 하는가와 관련하여 아무 
것도 알려 주는것이 없다. 정적인 프로쎄스들을 가정하자. 즉 모든 프로쎄스가 병렬프로 
그람이 시 동될 때 생 겨 난다고 하자. 이 것 들은 프로그람전체 가 끝날 때 까지 존재한다. 여 
기에는 MPI_COOMN_WORLD 가 확인하는 모든 프로쎄스들로 이루어 진 그런 기정 
(default) 프로쎄스그룹이 있다. 프로그람이 실행되고 있을 때에는 어떤 프로쎄스도 생겨 날 
수 없으며 중단될수도 없다. 그림 13-1 을 통하여 해당한 문제들을 설명하는데 MPI 프로그 
탐을 리용하자. 이것은 H/oo(i) 를 계산하기 위한 SPMD 프로그람이다. 루린 MPI_Init 는 
임의의 다른 MPI 프로그람이 접근되 기 전에 MPI 를 초기화하기 위하여 모든 프로쎄스를 
접근하여야 한다. 

그다음 MPI_Comm_site 와 MPI_Comm_rank 루린을 접 근하여 기 정 그룹과 매 프로쎄 스 
의 위수를 찾는다. 

프로쎄 스들은 통보문을 송신하고 수신하기 위하여 MPI_Send 와 MPI_Recv 루린을 접 근 
하여 서로 통신한다. 최종적으로 MPI 기능이 더 필요 없게 되면 모든 프로쎄스들은 
MPI_Finalize 를 접근하여 MPI 환경을 중단시킨다. 이 6 개의 루린은 MPI 에서 완전한 통보문 
넘 기 기 형프로그람을 작성 하기 위한 최 소모임 을 구성한다. 그림 13-1 에 서 프로그람이 
“myprog.c” 파일에 보관된다고 생각할수 있다. IBM SP2 다중를퓨터체계에서 이 프로그람 
을 병렬 C 콤파일러 
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절근하여 n 마디우에 적재된다. 같은 myprog n 마디에서 n 프로쎄스로써 적재될것이다. 마 
-로그람들은 코드가 적재될 때 보게 되는 호스트파일에서 규정되게 된다. 이 n 프로쎄스 
- 프로그람이 끝날 때까지 존재한다. 그것들은 기정프로쎄스그룹인 MPI _ COMM_WORLD 
사 룬다. 프로쎄스 /:(/: = 0,1, …, n -1) 를 위하여 MPI _ Comm _ size 루린은 group _ size 에서 «을 
:시키며 MPI _ Comm _ rank 는 my _ rank 에서 k 를 귀환시킨다. 마디개수 n (실례로 기정프 
스그룹의 크기)은 적재시 간파라메 터 이 다. 같은 프로그람이 단 «마디 에서 실행될수 있다. 
트쎄스 0 은 우와 같은 코드에서 모든 I / 0 작업을 실행 (출현) 시킨 


^include "mpi.h" 
int foo(i) int i; {...} 
main(argc, argv) 
int argc; 
char * argv[]; 

{ int i, tmp, sum = 0, group_size, my_rank, N; 

MPI_Init (&argc, &argv); 

MPI_Comm size (MPI_COMM_WORLD, &group_size); 

MPI:Comm:rank (MPf COMNfwORLD, &my_rank) ; 
if ( my_rank = 0) { 

print^Enter N :"); scanf(”%d"， 及 N); 
for (i=l; i<group_size; i++) 

S1 : MPI_Send(&N, 1 ， MPIJNT，i，i，MPI_COMM_WORLD); 

for (i = my_rank ; i<N ; i = i + group_size ) 
sum = sum + foo(i); 
for (i=l; i<group_size; i++) { 

S2: MPLRecv(&tmp, 1, MPI_INT, i, i, MPI_COMM_WORLD J &status) ; 

sum = sum + tmp ; 

} 

printf ("\n The result = %d n , sum); 
else { /* if myjrank != 0 */ 

S3: MPt_Recv(&N,l, MPI_INT, 0, i, MPI_COMM_WORLD, &status); 

for ( i = my__rank; i<N ; i; i + group_size ) 





다. 그것은 우선 사용자로부터 N 의 값을 읽은 다음 그 값을 순환고리 for 에 있는 다른 모든 
프로쎄스들에 송신한다. 다음에 자기의 작업분배몫 sum = foo (0) + foo («) + foo (2«) …을 계 
산하며 다음에 다른 프로쎄 스로부터 n_l 부분합을 수신하여 그것들을 총 계산결과에 축적 
시킨다. 매개 다른 «_1개 프로쎄스들에 대하여 다음작업이 실행된다. 즉 프로쎄스 
k (0< k < n ) 는 프 로 쎄 스 0 이 송 신 한 N 을 수 신 한 다 . 일 반 적 인 부 분 합 
sum = foo ( yt ) + foo(n + 쇼)+ foo (2 n + 쇼)… 을 계 산하도록 작업 분배 를 계 산한다. 다음에 이 부 
분합을 프로쎄 스 0에 송신한다. 프로쎄 스 0에 있는 send 이은 프로쎄 스 it 에 있는 receire 
S 3 과 정합되고 S 4 는 S 1 과 정합된다. 

MPI 실행 

MPI 는 단독으로 리용되는 쏘프트웨어체계가 아니라 이미 있는 병렬프로그람작성환 
경에서 통보문넘기기통신으로 봉사한다. 이것은 프로쎄스관리와 M ) 와 같은 필수적인 기 
능들을 관리 한다. 실례 로 MPI 는 IBM SP 2 우의 PCE/MPL 의 정 점 ( top ) OSF/Nx 에 설 치 될수 
있다. 이 적 합한 환경외 에도 여 러 가지 대중적 령 역 그리고 Intel Parason 우의 MPI 환경들 
이 있 다. 실례 로 이 미 Edinbug 종합대 학에 서 개 발된 CHIMP 실 행 과 shio 초대 형 콤퓨터 쎈터 에 
서 개발한 LAM(Local Area Multicomputer ) 을 들수 있다. 이것은 류다른 유닉스클라스터를 
위 한 MPI 프로그람작성 환경 이 다. 

MPICH 

이식가능이라는것은 같은 MPICH 묶음을 꺼내여 그것을 다른 곳에 설치할수 있다는 
것 을 의미한다. MPI CH 는 또한 많은 병 렬기 계 에서 좋은 성 능을 가진다. 

1 3. 2. 1 . MPI 틍보문 

MPI 프로쎄스들은 2.2.7 에서 론의 한 단일스레 드화된 프로쎄스이 다. 이것들은 분산된 
극소공간을 가진다. 따라서 어떤 프로쎄스가 다른 프로쎄스주소공간에서 변수에 직접 접 
근할수 없다. 

프로쎄스들사이의 통신은 통보문넘기기로 실행된다. 부분루린 MPI_Send 와 MPI-Recv 
은 그림 13- 1에 제시되여 있는바 이것은 프로쎄스쌍들사이에서 통보문을 넘기기하는 점 
대점통신조작이다. 이 부분루린들은 

MPI _ Send (& N , 1 , MPI _ INTi , i , MPI _ Comm _ WORLD ); 

MPI _ Recv (& n , 1 , MPI _ INT ,0, i , MPI _ C 0 MM _ W 0 RLD , & status ); 

실례 13.1 에 있는 송신 및 수신조작 즉 

Send M to Q ; 와 receive S from P ; 

들보다 훨씬 복잡하다. MPI 에서 왜 이런 복잡성이 제기되는가? 이 질문에 대답하기 위하 
여 우선 통보문이란 무엇인가에 대한 대답이 필요하다. 
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통보문이 란 무엇인가? 

비유하여 말하면 통보문은 편지와 갈은것이다. 우리는 통보문내용을(편지 그자체) 지정 
할 필요가 있다. 그리고 우리는 편지에서처럼 편지를 받아야 할 대상(봉투에 씌여 진)을 규 
정하여야 한다. 전자를 통보문완충기，후자를 통보문봉투라고 부론다. 

실례 13.2. MPI 를 거 치는 자료의 통신배 렬 

C 표기법 double AUO 이로 선언된 N 개의 합성수들의 배렬을 고찰하자. 이제 프로쎄 
스 모가 프로쎄스 Q 에 다음과 같이 송신하려 한다고 하자. 즉 

(1) 흠 잡을데 없이 완전한 배렬 A ; 

(2) 배 렬 A 의 첫 두개의 원소(즉 A [이과 A [ n ]); 

(3) 배 렬 A 의 짝수첨수원소(즉 A [이， A [2]， A [ u ]， …) 

경 우 (1) 은 단순한 Send A to Q 를 실 행 하는 프로쎄 스 P 로 규정 할수 있 다. 

통보문완충기 는 배 렬 이 름 A 에 의 하여 식 별 되 며 봉투는 바로 프로쎄 스이 름 Q 이 다. 

상업통보문체계에서 송신 

IBM SP 2 에서 상업통보넘기기체계(즉 Intel paragon 에서 NX 와 IBM SP 2 에서 MPL ) 
send(address, length ， destination ， tag) 

통보문송신루린은 4가지 인수를 포함하여 더 유연하다. 


여 기서 통보문완충기 는 (address, length) 쌍에 의 하여 지정 되 며 통보문봉투는 
(destination, tog ) 에 의 하여 지정 된다. 주소 ( a 洲 ress ) 마당은 통보문이 머 물러 있는 기 억 
부분의 시 작주소를 지 정한다. 그리 고 길 이부분은 얼 마만한 바이 트를 보내 야 하는가를 
지 정 한다. 콤퓨터 에 서 배 정 확도 ( double-precision number ) 가 64 bit 또는 8 bit 라고 간주하 
자. 그러면 경우 (2) 는 send ( A , 16, 公 tag ) 에 의 하여 지정 할수 있 다. C 와 포트란에서 
배 렬의 시 작주소는 배 렬의 이 름에 의하여 확인된다. 통보문길 이 는 두개 의 배정 확도를 
포함하므로 16 byte 로 된 다. 이 안 ( cscheme ) 을 가지고서는 경우 (3) 을 원만하게 다룰수 
없다. 


MPI 에서 송신 (Send in MPI ) 

그림 13-1 에 있는 MPI 송신부분루린은 그림 13-2 에 다시 제 시하였 다. 이 세 가지 강 
조된 속성통보문주소，통보문계 산，통보문자료형 들은 통보문완충기 와 다른 4개 의 인수들 
이 통보문봉투를 형성하도록 지정한다. 주소마당은 자료구조의 시작주소가 되여야 한다 
는것은 아니다. 이것은 응용프로그람주소공간에서 아무런 기억주소라도 된다. 실례로 
A 의 셋째，넷째，다섯째 요소들을 송신할 때 우리는 send ( A +2, 24, 公 tag ) 를 사용한다. 

왜 동보문은 자료행인가 

쌍 {address, length ) 은 MPI 에 앞서 대다수 통보문넘기기체계에서 통보문완충기를 명 
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기하군 한다. 그러면 왜 MPI 가 추가적인 통보문자료형속성을 소개하는가? 거기에 두가 
지 리유가 있 다. 그 하나는 이 종계 산을 지 원 하기 위한데 있 으며 다른 하나는 련속이 아 
니 고 동일하지 못한 기 억 부분으로부터 의 통보문들을 허 용할수 있도록 하기 위 해서 이 다. 


두소 통보문계 수 목적 처 리 ID 통보문태 그 

\ 1 / 人， 7 

MPI_Send ( 최 V， 1 ， MPIJNT ， i ，/， MPI_COMM_WORLD) 

그림 13-2. 통보문송신에서 MPI 성분들의 해부 

류다른 계산이 란 말은 워크스테 이션망과 같은 그런 서 로 다른 를퓨터로 구성된 체계 
우에서 응용프로그람들의 실행과 관련되여 있다. 이 체계에서 매 콤퓨터들은 서로 다른 
프로쎄 스들과 조작체 계 를 리용하여 각이한 판매자로부터 제 공될 수 있다. 중요한것 은 이 
콤퓨터 들이 서로 다른 자료표현방법 을 사용하더 라도 어떻게 호상실 현가능성 
( interoperability ) 을 담보하는가 하는것이다. 어느 정도 극단한 경우를 고찰해 보자. 


부분루런 
이륨 



실례 13.3. 서로 다른 형의 자료송신 

이제 워크스테 이션 1에서 워크스테 이션 2에 100개의 영문자들로 이루어 진 한개의 
렬을 보내 려 한다고 하자. 

워 크스테 이 션 1이 일정한 방법 으로 send ( String , 100, W 2) 를 실행할 때 워 크스테 이 션 
2는 그에 대 응한 recv ( String , 100, W 1) 을 실 행한다. 

여 기서 W 1 은 워크스테 이션 1, W1 는 워크스테 이션 2를 의 미한다. 두 기 계 에서 자료 
구조렬은 char Stimg [100 이으로 규정 지 어 진다. 그러 나 이 방법은 실현할수 없다. 왜 냐 
하면 W 1 과 W 2 의 Char 자료형이 서로 다르게 정의되기때문이다. Send ( String , 100, W 2) 의 
의미는 시 작주소렬을 리용하여 lOObyte (매 byte 는 8 bit ) 를 송신한다는것 이 다. 류사하게 
recv ( String , 100, W 1) 은 lOObyte 를 수신한다는것을 의미한다. 이것은 W 1 기계 에서도 좋 
다. 왜냐하면 문자가 바이트로도 표시되기때문이다. 그러나 W 2 의 기계에 있는 Char 자 
료형은 W 2 에서 리용되 는 모든 문자들 (5 만개 이상)이 ASCII 문자들과 호환되 여 야 한다. 따 
라서 W 2 에서의 매 문자는 16 bit 또는 2개 byte 자료항목이 다. MPI 는 표 13_3에 제시된것 
처 럼 기 초자료형 을 미 리 규정해 놓음으로써 이 문제 점 을 해 결 할수 있다. 이제 는 

W 1 : MPI _ Send ( String , 100, MPI _ CHAR , W 2, •••) 

W 2 : MPI _ Recv ( Stting ， 100, MPI _ CHAR , Wl , •••) 

에 의하여 100 개 문자를 통신할수 있 다. 둘째 인수 100은 바이 트로 볼 때 통보문길 이 를 
넘지 않는다. 그러 나 MPI _ CHAR 의 자료항목수는 길다. 이 량을 통보문길 이 와 구별하기 
위하여 통보문계 산이 라고 부론다. 자료형 MPI - CHAR 는 W 1 의 를퓨터우에 서는 8 bit 로 실 
행할수 있으나 W 2 의 콤퓨터우에서는 16 byte 로 실행하여야 한다. 문자렬의 실행은 8 bit 
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형식화 ( format ) 에서부터 16 byte 형식화로 정확히 변환되도록 보장하여 야 한다. 


표 13-3 미미에서 자료형미리정하기 


MPI(C 속박 ) 

C 

MPI (Fortran 

속박 > 

Fortran 

MPI_BYTE 


MPLBYTE 


MPI—CHAR 

부호문자 

MPI_CHARACTER 

CHARACTER") 



MPI_COMPLEX 

COMPLEX 

MPI_DOUBLE 

배 정 확도 

MPI DOUBLE 
PRECISION 

DOUBLE 

PRECISION 

MPI_FLOAT 

단순정 확도 

MPI_REAL 

REAL 

MPI 一 ! NT 

옹근수 

MPI_INTEGER 

INTEGER 



MPI_LOGICAL 

LOGICAL 

MPI_LONG 

긴 옹근수 _ 



MPI_LONG_DOUBLE 

긴 배정확도 



MPI-PACKED 


MPI„PACKED 


MPI_SHORT 

짧은 



MPI UNSIGNED 
_CHAR 

비 부호분자 



MPI 一 UNSIGNED 

비부호옹근수 



MPI_UNSIGNED 

_LONG 

•비 부호 



MPI UNSIGNED 
_SHORT 

짧은 비부호 




MPI 에 서 미 리 규정 된 자료형 들에는 C 와 포트란의 모든 기 초행 과 두개 의 추가행 
인 MPI_BYTE 와 MPI_PACKED 를 포함한다. MPI_BYTE 는 8 bit 로 된 한개의 byte 를 
포함한다. MPI_PACKED 들이 포함되 였는가를 다음에 간단히 론의한다. 

유도된 자료형 

세 가지 속성(주소，계산，자료형)을 가지도록 해도 실례 13.2 에서 론의 한 문제들을 풀 
기 어렵다. 즉 배렬 A 의 모든 짝수첨수의 원소들을 송신한다. 

실 례 13.4. 비 련쇄자료항목송신 

비련쇄적인 자료항목을 송신하는 한가지 방도는 먼저 이 항목들을 련쇄적인 림시완 
충기 에 묶어 놓고 그다음 그것 을 전송하는것 이 다. 다음의 코드는 MPI 를 리용하여 배 렬 
A 의 짝수첨수요소들을 어 떻게 묶어서 송신하는가를 설명한다. 
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Double A [100]; 

MPI _ Pack _ size (50, MPI . DOUBLE , comm , & BufferSize ); 

T empBuffer = malloc(B ufferSize ); 
j = sizeoff ( MPI _ DOUBLE ); 

Position =0; 

For ( i =0; i <50; i ++) 

MPI _ Pack ( A + i * j ， 1， MPI _ COUBLE , TempBuffer , BufferSize , & Position , comm ); 
MPI _ Send ( TempBuffer , Position , MPI 一 PACKED , destination , tag , comm ); 

MPI _ Pack _ size 루린은 50 개의 MPI _ DOUBLE 자료항목을 보존하는데 얼마나 큰 림시완 
충기가 요구되는가를 결정하는데 리용된다. 완충기크기는 TempBuffer 에 기억기를 동적 
으로 배 치하는데 리 용된 다. 배 렬 A 의 50개 의 짝수첨수의 원 소들 이 for 순환고리 의 림 시 
완충기에 정렬된다. 

MPI _ Pack 루린에서 첫 인수는 묶여 져야 할 배렬원소의 주소이다. 두번째 인수는 그 
자료형 이 다. 변수 position 은 얼마나 많은 항목들의 자리길 이 정 렬되 였는가를 보존하기 위 
해서 MPIpack 루린이 제정될 때 리용된다. 

최종값은 통보문 총계로써 다음의 MPI _ send 에서 리용된다. MPI 에서 지정된 모든 통 
보문들은 자료형 MPI _ PACKED 를 리용한다는것을 강조해 둔다. 

이와 같은 저 장방법은 tedious 와 error - prone 이 다. MPI 는 사용자로 하여금 다음의 유 
연한 형 식 화로 통보문을 지 정할수 있도록 한다. 통보문은 이 런 여 러개의 자료항목들로 
구성되여 있으며 매개는 주소와 자료형(물론 자료값)을 가지고 있다. 

실례 13.5. 통보문넘기기에서 혼합된 자료형송신 

아래의 통보문에서 매개의 배정확도는 8 byte 이며 한 문자는 lbyte 이고 옹근수는 
4 byte 라고 가정하자. 

(1) 배정 확도의 모든 요소들은 배 렬 A 에 있는 100개 의 요소들이 다. 이 통보문은 
100 개 의 항목으로 구성 되 여 있 다. 매 항목은 매 항목 (8 byte ) 의 크기 를 결정하는 
double 자료형 이 다. /렬 항목에 서 (시 작)주소는 A + 8 (i - 1) 이 다. 

(2) 배렬 A 의 셋째, 넷째 요소들. 이 통보문은 두개의 항목 A 四와 A [3] 으로 이루어 
진다. 매 항목은 double 자료형 을 가전다. 첫 항목은 A +16 에서 시 작되며 둘째 
항목은 A +24 에 서 시 작된 다. 

(3) 배 렬 A 의 짝수첨수요소들. 이 통보문은 50개 항목 A [이， A [2], A [4], A [98] 들로 
이루어 진다. 매 항목은 double 자료형을 가진다. /째 항목의 주소는 

A + 16(?- l ) 이 다. 

(4) 문자 C 가 따르고 다음에 또 옹근수 포가 따르는 배 렬 A 의 세번째 요소. 이 통 
보문은 서로 다른 자료형을 가지는 세개의 항목으로 이루어 진다. 
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이것은 구조의 부분 즉 


Struct {double A [100]; char b , c ; int j , k ; } S ; 

이 라고 가정한다. 따라서 주소는 첫 항목 ( A [2]) 에 대 하여 S +16 이 며 두번째 항목 ( C ) 에 
대 하여 S +801 그리 고 세번째 항목(幻에 대 하여 S +806 이 다. 

(1) 과 (2) 의 통보문들은 두가지 성질을 가진다. 그 하나는 자료항목이 보존되여 있으 
며 모든 자료항목들이 같은 자료형을 가진다는것이다. 다른 하나는 이런 통보문들이 세 
가지 즉 address , count , datatype (주소，계 산，자료형)에 의 하여 편리 하게 지 정된다는것 이 다. 

실례 로 (1) 에서 통보문은 ( A , 100, MPI , DOUBLE ) 에 의 하여 지정 되 며 (2) 의 경 우는 
( A +16, 2, MPI _ DOUBLE ) 에 의 하여 지정된다. 그러 나 이 러한 단순한 방법으로는 (3), (4) 
의경우를 다룰수 없다. (3) 의 경우에 자료항목은 련쇄적인 위치에 머물러 있지 않는다. 
경우 (4) 에서 자료항목은 비련쇄적이며 혼합된 자료형으로 된다. 

MPI 는 유도된 자료형 으로 되 였을수 있는 비 련쇄적 인 자료항목들로 구성된 임의의 
통보문에 대하여 지정하도록 도출된 자료형의 개념을 도입하였다. 도출된 자료형은 사 
용자응용프로그람이 실행될 때 기 본자료형 으로 이루어 진다. MPI 는 매 우 유력하며 복잡 
한 자료행 을 구성 할수 있는 부분루린 (Versatile subroutine ) 들을 가진다. 기 본취지 를 해 설 
하기 위하여 실례 를 리용하기 로 한다. 

실례 13.6. 배럴의 모든 짝수첨수를 가지는 요소들의 송신 

이 실례는 첨수화된 배렬의 부분을 어떻게 조종하겠는가를 보여 준다. 

Double A [10 이; 

MPI _ Data_type EvenElements ; 

MPI _ Type _ vector (50, 1, 2, MPI _ DOUBLE , & EvenElements ); 

MPI_T ype _ commit (& EvenElements ); 

MPI _ Send ( A , 1, EvenElements , destination , •••)； 

프로그람작성자는 새로운 자료형 인 EvenElement 를 선언하여 MPI _ Data _ type 를 사용 
한다. MPI _ Type _ vector ( coMnf , blocklength , stride , oldtype , tfenew ᄍ pe ) 는 도줄된 자료형을 
구성 하기 위한 하나의 MPI 루린이 다. 

도줄된 형 인 newtype 는 block 의 count co 次 y 들로 이루어 진다. 

매 블로크는 차례 로 현존 자료형 으로써의 낡은 형 인 항목들의 blocklength 부분들 i 
이 루어 진다. stride 는 매 두블로크들사이 에 있는 oW 攻 pe 요소들의 개 수를 지정 한다. 따 
라서 (S 竹 ide - blocklength ) 는 두 블로크사이 에 있는 gap 이 다. 

MPI _ Type _ Vector (50, 1, 2, MPI — DOUBLE , & EvenElements ) 루린은 50개의 블로크로 
이 루어 진 도출된 자료형 EwnElement 를 만들어 낸 다. 매 블로크는 한개 의 배 정 확도로 
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구성되며 여기에 8 byte 름이 따르고 그뒤로 다음블로크가 따른다. 

Stride 는 두개 의 배 정 확도 또는 16 byte 의 크기 를 가진 다. 이 새 로운 행 은 송신루린 에 
서 리용되 기 에 앞서 기 억 되 여 야 한다. EvenElement 의 매 한개 의 요소는 배 렬 A 의 짝수 
첨수요소 50을 모두 포함한다는것 을 강조하게 된 다. 따라서 계 산부분은 MPI - Send 에 서 
값 1-1- 가진다. 

통보문완충기 

통보문완충기(혹은 간단히 완충기)는 통보문넘기기분야에서 서로 다른 의미로 리용 
되여 왔다. 아래에서 몇가지 실례를 들기로 하자. 

• 완충기는 통보문자료값이 보존되 여 있는 프로그람작성 자가 지적한 응용프로그람 
기 억지대 를 념두에 둔다. 실례 로 Send ( A , 16, 公 tag ) 의 완충기 A 는 사용자응용 
프로그람에서 다르게 선언된다. 

• 완충기는 또한 통보문이 송신될 때 림시로 보존하는 통보문넘기기체 계에 의하여 
만들어 지 고 운영 되 는 일부 기 억지대를 의미한다. 이 런 완충기 는 사용자응용프 
로그람에서 나타나지 않으며 때때로 체계통보문완충기(혹은 완충기체계 ， system 
buffer ) 로 불리워 진다. 

• 보아는 세번째 가능성 을 허 용한다. 사용자는 중간완충기 로 하여 금 응용프로그람 
에서 나타날수 있는 통보문을 저 장하기 위하여 일정한 범위의 기 억지대 를 설정 
할수 있다. 

실례 13.7. 프로쎄스쌍사이의 통보문송신 

프로쎄 스 모의 배 렬 A 에 보존된 통보문 M 을 프로쎄 스 Q 의 배 렬 B 에 로 전송하기 위 
한 다음과 같은 코드를 고찰하자. 즉 코드는 

프로쎄 스 P : 프로쎄 스 Q : 

double A [200000 이 double Bf 32] 

send ( A , 32, Q , tag ) recv ( B , 32, P , tag ) 

와 갈다. 

세 가지 형의 완충기리용이 그림 13-3 에 제시되 였다. 여 기서 보은 배 렬 A 의 첫 4개 
요소들을 포함하는 32 byte 통보문을 지 정한다. 

1) 의 경 우에 통보문은 사용자준위 의 완충기 A 와 B 들사이 의 변환을 지 령한다. 이 때 
완충기들은 둘 다 사용자응용프로그람에서 선언된다. 수신완충기는 충분히 커야 한다. 

실례 로 send ( A , 64, Q , tag ) 가 모에 의 하여 실행되는 경 우에 오유가 발생 할수 있다. 
이 러 한 오유는 현재 의 통보문넘 기 기 체 계 로써 는 발견 할수 없 으므로 오유수정 에 서 많은 애 
로가 제기된다. 

비동기통보문넘 기 기 로써는 우에서 지 적한 (자) 경 우) 직접 적 인 송신을 실행 하기 힘들다. 


632 





그림 13-3. MPI 에 서 사용되 는 통보문완충기 의 세 가지 형 


일 련의 대 책안들이 제 기 되 였 다. 

2) 의 경우에 통보문은 수신사용자완충기에 들어 가기 전에 동적으로 생성된 체계완 
충기 S 에 림시로 복사된다. 이와 관련하여 두가지 문제점이 제기된다. 그것은 첫째로，지 
나친 복사는 추가적 인 부가처 리 를 초래하며 둘째 로，충분한 크기 를 가진 체 계완충기 를 담 
보할수 없 다는것 이 다. 필 요한 완충기 는 물리 적 기 억 장치 를 지 나치 게 크게 요구하므로 과잉 
결과를 초래한다. 또한 실제 적 인 기 억 용량에 비 하여 완충기 가 지 나치 게 커서 프로그람이 
중지 되거나 중단된 다. 

(3) 의 경우는 MPI 에서 사용되는 또 다른 방도이 다. 사용자는 우선 완충시켜 야 할 임 
의 의 통보문을 저 장하는데 충분한 림 시 완충기 T 를 설정 한다. 통보문넘 기 기 작업 이 실 행 될 
때 통보문은 우선 수신자완충기 B 에 기입되기전에 완충기 T 에 복사된다. 만일 체계의 완 
충기 T 를 보상할수 없는 경우에 응용프로그람으로 하여금 오유통보문을 검사하게 하고 
작업 을 중단시 킨다. 그렇 지 않으면 응용프로그람은 통보문완충기 공간을 담보하여 야 한다. 

1 3. 2. 2. MPI 에서 ■보문봉투 

통보문을 어떻게 받아 들이려 하는가? 

아래 에 목록화된것 은 통보문봉투가 (Massage Envelope ) 세 개의 입 력 량들로 구성 되는 
MPI 송신루린이 다. 목적지마당은 통보문이 송신되 여 야 할 처 리를 의미하는 옹근수이 다. 

MPl_SQnd(siddrGss,count,datatypQ,destination f tag,communicator) 

왜 꼬리표가 필요한가? 

통보문형식으로 알려 진 통보문꼬리표는 사용자가 통보문의 각이한 형 태들에 이름을 
불여 통보문접수를 속박시키는데 리용되는 옹근수이다. 왜 꼬리표가 필요한가를 보기 
위해서 먼저 꼬리표 없는 다음의 코드를 고찰하자. 


프로쎄스 p ： 
Send ( A , 32, 效 
Send ( B , 16, Q ) 


프로쎄스 Q ： 
recv ( X , P , 32) 
recv ( Y , P , 16) 
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이 코드의 목적은 A 의 첫 32byte 를 표에, 표의 첫 16bit 를 꾼에 전송하는것 이 다. 통보 
문 표가 후에 송신되 지 만 프로쎄 스 Q 에 는 더 일 찌 기 도착하므로 첫 recv () 에 의 하여 보에 
수신된 다. 이 런 오유는 다음과 같은 꼬리 표들을 리용하여 피할수 있 다. 


프로쎄스 P： 

Send(A, 32, Q, tagl) 
Send(B, 16, Q, tag2) 


프로쎄스 Q ： 
recv ( X , P, tagl, 32) 
recv ( Y , P, tag2, 16) 


새 로운 통보문 A (꼬리 표 1을 가진)는 먼저 수신되도록 담보된다. 통보문 표가 Q 에 
먼저 도착하면 그것 은 recv ( Y , P, tag2, 16) 가 실행 될 때 까지 대 기 한다. 


실례 13.8. 통보문넘기기에서 러용된 꼬리표들 

꼬리 표를 리용하는 또 다른 리유를 다음실례 에서 볼수 있 다. 봉사기 프로쎄 스 Q 에 봉 
사요청 통보문을 송신하는 요청프로쎄 스 모와 요를 가정 하자. 


프로쎄 스 P： 프로쎄 스 R： 

Send(requestl, 32, Q) Send(request2, 32, Q) 

어 느 송신 이 먼 저 실 행 될 것 인 가는 미 정 이 다. 봉사기 처 리 Q 는 의 뢰 기 요청 이 먼 저 들 
어 와 먼저 봉사되 는 순서 로 처 리할것 을 요구한다. 

프로쎄스 Q ： 

while(true){ 

recv(received 一 request, Any_ 프로쎄 스， 32) ; 

프로쎄스 received _ request \ 

} 

이 코드는 모든 요청에 같은 방법으로 처리되지 않으므로 그리 유연하지 못하다. 
꼬리 표를 리용하면 서 로 다른 통보문들을 서 로 다르게 처 리할수 있 다. 

프로쎄 스 P : 프로쎄 스 R : 

Send(requestl ， 32，Q，tagl) send(request2,32，Q，tag2) 


프로쎄스 Q : 

While(true){ 

Recv(received_request,Any, 프로쎄 스，32， Any_tag, Status) 
If(Status. Tag==tagl)i~^ •씨/스느 received_request in one vi； 次 y; 
If(Status. Tag==tag2) 프로씨/스 received_request in another way ; 


recv() 명령문은 임의의 처리로부터 (Any_Process 는 Wild _ card_Process 1 D 1 알려 져 있 
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다.) received - request 에로 임의의 꼬리표 ( Any - Tag 는 Wild - carcH : ag 로 알려 져 있다.)를 가진 
32 bit 의 통보문을 수신할것 이 라는것을 알린다. 수신된 통보문의 실지 꼬리표는 프로그람 
에서 가지분기를 일으키는 Tag field of Status 에 기억된다. 

통신기 란 무엇인가? 

통신기 란 하나의 프로쎄스 group 와 Context 이 다. 하나의 프로쎄스그롭은 프로쎄스들 
의 정렬된 유한모임이다. 

유한성은 그롭크기로 불리우는 «이 유한이라는 의미이다. 따라서 우리는 유한 n 개 
의 프로쎄 스들의 모임 을 념두에 둔다. 순서 붙인다는것 은 n 개 의 프로쎄 스들을 옹근수 0, 
1, •••내-1들로 등급분류한다는것을 의미한다. 

매 프로쎄 스에 는 통신기(그룹)안에 서 자기 순위 가 대 응되 여 있다. 그림 13-1 에 제 
시한것처럼 그룹크기와 프로쎄스순위는 MPI 루린을 접근함으로써 얻을수 있다. 


MPI _ Comm _ Size ( Communicator ,& group _ size ) 

MPI _ Comm _ rack ( Communicator , & my _ rank ) 

거의 대 다수 MPI 사용자들은 한개의 그룹 ( MPI 에서 intra-communicators 라고 부론다.) 
안에서 통신을 위한 루린만을 요구하여 야 한다. 이것은 모든 MPI 통신루린은 통신기 인수 
를 가진 다는것 을 의 미 한다. MPI 는 내 부련결 통신기 (化化를 통한 내 부련결 
그룹 ( inter - group ) 통신을 허 용한다. 이 에 대 하여 서 는 더 론의 하지 않고 독자들에 게 [575] 
와 MPI 홈페 지 를 지 적한다. MPI 에 서 Context 들은 호상 복잡한 통신속에 서 서 로 다른 통신 
내용을 안전하게 분류하는 체계형 supertag 와 같다. 매 통신기는 특유한 문맥을 가전다. 
한개의 문맥으로 송신된 통보문은 다른 문맥으로는 수신할수 없다. 문맥개념이 왜 필요 
한가를 보기 위하여 다음의 실례 를 고찰하자 

실 례 13.9. 통신기리용 

다음과 같은 코드 일부를 보자 
Consider the following code fragment ; 

Process 0: 

MPI _ Send(msg 1, count 1, MPI _ INT ， 1， tagl ， comml ); 

Parallel _ fft ( …); 

Process 1: 

MPI 一 Recv ( msgl，count 1, MPI _ INT ， 0， tagl , comml ); 

Parallel _ fft ( …); 

목적은 프로쎄스 0이 프로쎄스 1에 msg 1을 송신하며 둘 다 부분루린 parallel _ fft () 을 
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실 행하는데 있 다. 이 제 parallel _ fft () 이 다른 송신부분루린 즉 


if ( my _ rank ==0) MPI _ SendCmsg 2, count 1, MPI _ INT ， 1, tag 2, comm 2 
를 포함한다고 가정하자. 

통신기가 없었다면 프로쎄스 1에서 MPI - Recv 는 tag 2가 tagl 과 같은 옹근수값을 가 
질 때 parallel _ fft () 에 로 MPI _ Send 가 송신한 msg 2를 잘못 수신할수 있 다. 그러면 왜 우 
리가 다른 tag 값을 사용할수 없는가? 

이 와 관련 하여 세 가지 리유로 tagl 과 tag 2 의 명 백 성 을 담보하기 어 렵 다. 그것 은 

• tag 들은 사용자가 지정한 옹근수값이며 사용자들자체의 실수도 있다. 

• 사용자의 실수가 없다 하여도 tagl 의 값이 tag2 의 값과 다르다는것을 담보하기가 
어 렵거 나 불가능하다. Parallel_fft() 기능은 다른 사용자가 쓸수도 있으며 서 고루 
린이 될수도 있다. 따라서 사용자는 tag2 의 값을 알지 못할수 있다. 

• 사용자가 tag 2 의 값을 안다 하여 도 오유가 계 속 나타날수 있 다. 

따라서 Mpi _ Recv 부분루린은 임의의 무질서 하게 카드화된 tag MPI - Any - tag -§■ 
리 용하기 로 결 심 하기 때 문이 다. 

MPI 는 이 모든 문계 들을 통신기 를 리용하여 해 결 한다. 

Parallel _ fft 에서 통신은 같은 프로쎄스그룹(즉 프로쎄스 0과 1) 에 들어 있으면서도 매 
통신기가 고유하며 체계에 지정된 문맥 ( context ) 이 Comml 의것과 서로 차이나는 통신기들 
을 사용한다. 따라서 MPI _ Eecv 가 부주의로 Mpi _ Send 가 송신한 msg 2 를 우연히 수신할 
위 험 성 은 없 다. MPI 는 서 로 다른 통신기 를 분리 시 켜 통신을 보장하도록 설 계 되 였 으므로 
임의의 집 중통신은 그것들이 같은 종류의 통신기 라 할지 라도 점대점통신으로 분리시 킨다. 
이 통신기개 념은 다른것과 함께 병 렬서고개발을 도모한다. 


통신기 

MPI 는 미 리 정 의 된 여 러 개 의 통 신 기 들 을 가 지 고 있 다 . 실 제 로 
MPI_COMM_WORLD 는 모든 프로쎄스들의 모임을 포함하며 부분루린 MPI_Init 가 실행된 
다음에 정의된다. MPIJ 그 OMM_SELF 는 그것을 사용하는 과정만을 포함한다. MPI 는 또 
한 사용자가 정의한 통신기들을 설치 하기 위한 여 러개의 부분루린들을 제 공한다. 우리 
는 실험 을 통하여 그중 두가지만을 설명한다. 

실 례 13.10. MPI 에 서 새 로운 통신기 

10개의 프로쎄스가 실행되는 다음의 코드를 고찰하자. 

MPI_Comm My World, SpHtWorld; 

Int my_rank, group_size, Color, Key; 

MPI_Init(&argc,&argv); 
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MPI_Comm_dup(MPI_COMM_WORLD,&My World); 

MPI_Comm_rank(MyWorld, &my_rank); 

MPI_Comm_size(MyW or Id, &group_size); 

Color=my_rank% 3; 

Key=my_rank/3; 

MPI_Comm_split(MyWorld, Color,Key,&SplitWorld); 

루 린 MPI_Comm_dup(MPI COMM_WORLD, My World) 실 행 은 원 본 MPI_COMM_ 
WORLD 와 같이 10 개의 프로쎄스들로 되여 있지만 서로 다른 문맥을 가진 같은 그롭을 
포함하고 있는 새 로운 통신기 My World 를 생 성 한다. 

MPI_COMM_split 가 어 떻게 작업 하는가를 표 13- 4 에 제시하였다. 

My World 통신기의 10 개 프로쎄스들은 3 개의 통신기 로 분할된다. 

같은 색 을 가진 모든 프로쎄 스들로 Split world 라는 새 로운 통신기 를 구성하였 다. 그 
것 들은 새 로운 통신기 에 서 건반에 의하여 주어 진 순서 대 로 순위 를 정 하였 다. 색 에 서 
로 다른 3 개의 값이 나타나는것으로 하여 3 개의 통신기가 형성된다. 모두가 다 Split 
World 라고 이름을 달았는데 그것들은 서로 다른 통신기들이다. 


표 13-4 분할틍신기 My w 아 Id 


Myworld 에서 렬 

0 

1 

2 

3 

4 

5 

6_ 

7 

8 

9 

색갈 

o' 

1 

2 

0 

1 

2 

0 

1 

2 

0 

열쇠 

0 

0 

0 

1 

1 

1 

2 

2 

2 

3 

분할 ™ rid 에서 렬 (색 =0) 

0 



1 



2 



3 

분할 world 韻생 (색 =1》 . 


~0~ 



1一 



T" 



분할 world 에서 멸 (색 =2) 



一『 



一厂 



~2~ 



통보문특징요약 

일반적인 형태 즉 

MPI_Send(buffer, count, datatype, destination,tag,communicator) 

로 송신부분루린의 통보문특징들을 요약하자. 

그리 고 그림 10-1 과 그림 13-2 에 있는 명백한 실례 로써 

MPI_Send(&N, 1, MPI—INT, i, i, MPI_COMM_WORLD) 

를 고찰하자. 

이것은 표시 1이 꼬리표 i 를 가지고 장소 & N 에 기억된 옹근수이며 프로쎄스는 그것 
을 송신한다는것 을 의 미한다. 

송신기 와 목적프로쎄 스들은 둘 다 모든 프로쎄 스들이 통신기 에 존재한다. 이 것은 아 
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래와 같이 개괄할수 있다. 


• 첫 인수는 통보문완충기의 첫 주소를 가리킨다. 

• 둘째 인수는 일정한 자료형마다 많은 항목들이 통보문에 포함되는가를 규정한다. 

• 자료형은 기본형이나 파생형일수 있다. 

• 넷째 인수는 목적프로쎄스 (렬)이며 다섯째는 통보꼬리표이다. 

• 여섯째 항목은 프로쎄 스그롭과 문맥，통신기 를 동일 시한다. 보통 통보문들은 
같은 그룹의 처리기들사이에서만 넘기기된다. 그러나 MPI 는 통신기들사이를 
통하여 그롭호상간의 정보통신을 허용한다. 

대 응하는 수신부분루린은 송신부분루린과 매 우 류사하다: 

MPI _ Recv (& tmp , 1 , MPI _ INT , i , i , MPI _ COMM _ WORLD ,& Status ) 

혹은 더 일반적으로 

MPI _ Recv ( address , count , datatype , source , tag , communicator , status ) 

첫 인수는 수신통보문완충기시작주소 즉 수신하여야 할 자료보존용기억지대를 지 
정한다. 둘째 인수는 수신가능한 셋 째 인수의 주어 진 일정한 자료형 의 최 대항목수를 
지 정한다. 수신해 야 할 실제 적 인 항목수는 그보다 작을수 있다. 넷째 인수는 원천프 
로쎄 스 ID ( rank ) 이 며 다섯째 인수는 통보문 tag 이 다. 이 두 부분은 무질서 하게 카드화 
된 MPI _ Any_source 와 MPI _ Any_tag 일 수 있 다. 여 섯째 인수는 통신기 를 확인한다. 일 곱 
째 인수는 수신된 통보문에 대 한 여 러 가지 정 보를 보존하고 있는 구조를 가리키 는 지 
적 자이 다. 


MPI_Status Status 

이것은 수신된 통보문에 대한 여러가지 정보를 가진다. 실례로 실지 원천프로쎄스 
렬 과 실 지 통보문꼬리 표는 두 마당 MPI_SOURCE 와 MPI_TAG 에 서 찾아 볼수 있다. 수 
신된 자료항목의 실제개수는 다른 MPI 부분루린을 통하여 알아 볼수 있다. 

MPI _ Get _ count (& Status , MPI _ INT , & C ); 

부분루린은 Status 의 정 보를 리용하며 일정한 자료형(이 경 우에 MPI _ INT ) 의 항목의 
실제개 수를 결정하여 이 수자를 변수 C 에 배 치한다. 
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실례 13.11. 통보문넘기기에서 상태 

상태 정 보는 서 로 다른 프로쎄 스들로부터 서 로 다른 크기 와 tag 를 가진 통보문을 수신 
하는데 유익하다. 다시 한번 실례 13.8 의 의뢰기-봉사기프로그람을 보자. 

일련의 봉사기프로쎄스들은 봉사기 에 통보문을 송신하여 봉사를 요구한다. 거기 에 
는 통보문 tag 가 확인하는 세 가지 형의 봉사기 가 있다. 입 력 파라메터 는 통보문의 실제 적 
인 자료항목에 해 당하는 요구와 갈다. 따라서 서로 다른 통보문들은 서로 다른 크기를 
가진다. 같은 봉사기를 요구하는 두개의 통보문은 갈은 tag 를 리용한다. 


While(trae){ 

MPI _ Recv ( received _ request , 100, MPI _ BYTE , MPI _ Any _ source , PI _ Any _ tag , comm . , 
& Status ); 

Switch ( Status . MPI _ Tag ){ 


Case 

tag _0: 

perform service type 0; 

Case 

tag _ l : 

perform service type 1; 

Case 

tag _2: 

perform service type 2; 



1 3. 2. 3. 점대점틍신 

MPI 는 차단 및 비 차단송신/수신 두 조작을 다 보장한다. 즉 하나의 차단송신(수신) 
은 통보문완충기 가 안전하게 쓰기 (읽 기 )할 때 까지 귀 환될 수 없 다. 그 반면에 비차단송신 
(수신)은 즉시 귀환될수 있다. 

MPI 는 차단/비차단속성 의 서 로 다른 결 합과 몇 가지 서 로 다른 통보문완충기 사용방식 
에 기초하여 많은 량의 송신(수신)부분루린을 보장한다. 

통신모형 들 

통신모형 이라는 말은 송수신사이 의 완충기 운영 과 하나의 동기 화방법 을 의 미한다. 
이 말의 뜻은 10. 1. 2의 것 과 다르다. 이 모형 들은 차단과 비차단에 서 송신조작에 적 용된 
다. MPI 는 일 반적 인 차단 및 비차단수신을 가지는바 이것은 13丄2에서 론의하였 다. 

• 동기화 송신은 그에 대응하는 수신이 시 작될 때까지 귀환될수 없으므로 응용프 
로그람완충기 는 도착하는 통보문을 보존하기 위하여 수신자측에 제 공하여 야 한 
다. MPI 에 서 비 차단동기송신은 불가능하다. 그것 은 귀 환되 였 다 하여 통보문이 
송신되 였 다는것 을 의 미하지 않기때 문이 다. 수신자측에서 추가적 으로 완충기 를 설 
치할 필요는 없다. 체계완충기는 송신자측에서 여전히 요구할수 있다. 통보문이 
지 나치 게 복사되 는것 을 제 거 하기 위하여 차단동기 송신을 리용하여 야 한다. 

• 완충화 완충화된 송신은 일정한 량의 완충공간의 리용가능성 을 가정할수 있 다. 
이것은 바이 트크기의 사용자완충기 를 배 당하는 부분루린호출 MPI _ Buffer _ 
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attach ( buffer , size ) 를 통하여 사용자프로그람에 의 해 미 리 규정 되 여 야 한다. 이 
완충기 는 MPI _ Buffer _ detach (竹에 의 하여 해제된다. 이 완충기 방식 
은 그림 13-3 니에 제시된다. 

• 표준화 실행에 따라 동기 혹은 완충방식으로 송신할수 있다. 

• 준비 수신측이 이미 응답하였으면 송신을 계속 진행한다. 이런 송신은 동기 
방식 에서 는 대 기하지 말아야 한다. 이 것은 일부 경 우에 보다 효과적 인 통신 
규약을 사용하기 위하여 리용한다. 

이 방식들은 블로크화속성 과 함께 표 13-5 에서 보는바와 같이 MPI 에서 여 덟개의 부 
분루린들을 발생한다. 이 때 수신루린은 두개 뿐이 다. 


표 13-5 MPI 에서 각이한 송신/수신조작들 


MPI 

차단 

비 차단 

표준송신 

MPISend 

MPIIsend 

동기송 社 < 

MPI_Ssend 

MPI_Issend 

완충송신 

MPI ᅭ Bsend 

MPirbsend 

준비 송신 

MPI_Rsend 

MPIIrsend 

' 乂:쏙#广 ■ 

MPI_Recv 

MPIIrecv 

검사완료 

MPI_Wait 

MPI_Test 


비 차단통신 

MPI 에 는 4개 의 비차단송신루린들과 한개의 수신루린이 있다. 그것 들을 초기(시동)송신 
이 나 수신에 리용한다. MPI 는 송신이 나 수신의 완료를 검사하는 다른 루린들을 제공한다. 
실례 로 두가지 기 본루린들을 론의하자. 

실례 13.12. 통보문넘 기 기를 리용하는 프로쎄스관흐름 

그림 13-14 에 제시된것은 왼쪽으로부터 입력자료를 련속적으로 수신하고 새로운 자 
료렬을 계산하며 그것을 오른쪽으로 송신하는 세 프로쎄스관흐름이 다. 



그림 13-4. 프로쎄스관흐름에서 자료렬의 흐름 


while ( Not _ Done ) { 

MPI _ Irecv ( NextX , •••) ; 

MPI _ Isend ( PreviousY , …) ; 

CurrentY = Q ( CurrentX ) ; } 

프로쎄 스 Q 는 프로쎄 스 P 로부터 다음의 자료항목 표를 수신하는 비차단수신을 수행 
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하며 비차단은 선행자료항목 Y 를 프로쎄 스 R 에 로 송신하는것 을 초기 화하기 위하여 송신 
한다. 이때 현재의 표의 계산은 송신/수신이 진행되는 동안에 수행된다. 몇가지 주의사항 
이 있 다. 우선 표와 Y 를 위한 두개 의 분리 된 완충기 들이 필요하며 다음 표와 모의 수신에 
대하여 완충기에 머무르는 동안 계산은 다른 완충기에 있는 현재 표를 사용할수 있다. 이 
러 한 2중완충조직도해는 잘 알려 진 기술로서 그림 13- 5에 제 시되 였 다. 


그림 13-5. 프로쎄 스관흐름에 서 의 2 중완충화 

고정된 흐름선들은 순환고리의 반복에서 완충기들이 어떻게 리용되는가를 보여 준 
다. 이것들은 다음반복에서의 실선들로 절환된다. 다음으로 완충기의 자료는 그것이 갱신 
되기전에 리용된다. 

While ( Not _ Done ){ 

If(X==XBufO){X=XBufl;Y=YBufl;Xin=XBuf();Yout=YBufO;} 
Else{X=XBufO;Y=YBufO;Xin=XBufl ;Yout=YBufl ; } 

MPI _ Irecv ( Xin , : , recv _ handle ); 

MPI _ Isend ( Yout , : , send _ handle ); 

Y=Q(X);/**/ 

MPI_W ait ( recv _ handle , recv _ status ); 

MPI_W ait ( send _ handle , send _ status ); 


if-else 명 령 문은 2 중완충기 를 절환하는데 리 용된다. 루린을 송신하는 비차단코드는 송 
신완료를 검 사하는데 리용되 는 보충적 인 파라메터송신조종을 제 외 하고 블로크화전송과 
갈은 형태를 가진다. 

MPI _ Isend ( buf , count , datatype , dest , tag , comm . , send _ handle ) 

마찬가지 로 비 차단수신루린 MPI _ Irecv 는 한개 이 상의 파라메 터 수신조종을 가진 다. 송 
신/수신의 완료검사는 루린코드를 통하여 실행 되 는바 이 루린은 조종에 의하여 지정되는 
송신이 나 수신이 완료되 기 전까지 귀 환하지 않으며 일 부 상태정 보는 파라메터 상태 로 넘 겨 
진 다. 



송신 Y 

YBufD|- ■ \ 
YBuflL , 


XBufD | 
.며 XBufl [ 


MPI _ Wait ( Handle , Status ) 

그러므로 코드는 두개의 비차단송신과 수신이 완료되기전까지 다음반복에로 이행하 
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지 않는다. MPI 는 또한 조종에 의하여 지정되는 송신과 수신이 완료되였는가를 검열하는 
다른 루린코드를 제공한다. 


MPI _ Test ( Handle , Flag , Status ) 

그러 면 기 발에 True 값을 배 정한다. 

실례 13.13. 송신과 수신통보문들에서의 교착 

다음의 코드가 실행될 때 어떤 현상이 일어 나는가? 

그 코드는 몇가지 오유들을 가지는데 목적지향성 있게 작성된다. 


프로쎄 스 P： 프로쎄 스 Q： 

X =0; if ( Y ==5) MPI _ Irecv (& Y ，. • -, P ,- •)； 

MPI _ Issend (& X , …，公…); printf ( “Y is % d ” , Y ); 

이것은 다음과 같은 결과들이 존재할 때 에는 오유코드로된다. 

• 교착，루린 MPI-Issend 는 비 차단 및 동기 송신이 다. 이 루린은 응답(대 응) MPI_Irecv 
가 실행되기 전에는 귀환되지 않는다. 이런 정황은 조건 Y =5 이 진실이 아닐 때 
생긴 다. 

• 진가 0인 경우 if 명령문이 실행되면 Y =5 이다. 이때 MPI-Irecv 는 프로쎄스 P 로부 
터 X 값 (0) 을 자체의 Y 에 로 수신할수 있으며 값을 출력한다. 

• Y 가 5인 경 우 Y =5 일 가능한 경 우(씨 나리오)는 X 값이 꾼에 수신되 기전에 printf 명 
령 문이 수행 되 는 경 우이 다 ( MPI-Irecv 는 비 차단 수신이 라는것 을 주의 하시 오.). Y 
의 낡은 값이 출력된다. 

1 3. 2. 4. 집체적 MPI 틍신 

집중통신은 전역통신조작과 관련되는 모든 프로쎄스그룹을 포괄한다. 1 HPI 는 표 10- 
6에 제 시 한바와 같이 풍부한 집 중통신루린 2들을 제 공한다. 

하나의 프로쎄스그룹 Comm 이 n 개의 프로쎄스를 포함한다고 가정 하고 몇 가지 루린들 
을 론의함으로써 기본적 인 집중통신원리들을 자세히 보기로 하자. 

방송 

다음의 방송조작에서 루트 ( Root ) 를 련결시키 는 프로쎄 스는 를프로쎄 스 ( Co _ process ) 
그룹에서 자기자체를 포함한 모든 프로쎄스들에 같은 통보문을 통신한다. 

MPI _ Bcast ( Address , Count , Datatype , Root , Comm ) 
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통보문의 내용은 점대점통신에서와 마찬가지로 세개의 변수(주소，계산，자료 
-여 규정된다. 

루트프로쎄스에 대하여 이 세개의 변수들은 송신완충기와 수신완충기를 규정 
- 프로쎄스들에 대 하여 이 세 개의 변수는 수신완중기를 규정 한다. 

모으기 

모으기루린은 다음과 같이 주어 진다. 

MPI _ Gather ( SendAddress , SendCount , SendDatatype , RecvAddress , RecvC 
/ Datatype , Root , Comm ) 

Root 프로쎄스는 자체 를 포함하여 모든 n 개 의 프로쎄 스로부터 전용화된 통보문 
: 다. 

이 n 개의 통보문들은 등급순서로 련결되며 root 프로쎄스의 수신완충기에 보존된 
매 송신완충기는 송신구조，송신계산，송신자료형과 갈은 3원무이로 식별된다. 

ᄂ 기는 모든 non - Root 프로쎄스들에 대 하여 무시된다. Root 프로쎄스들에 대 하여 이 
n 이(수신주소，수신계 산，수신자료형)로 식 별된다. 

산란 ( Scatter ) 

Scator 루린 ( routine ) 은 아래와 같다. 





MPI _ Scatter ( SendAddress , SendCount , SendDatatype , RecvAddress , RecvCount , RecvDatatype , 
Root , Comm ) 

MPi - Scatter (송신주소，송신계산，송신자료형，수신주소，수신계산，수신자료형， Root , 
Comm ) 과 같이 주어 진다. 

산란은 모으기 와 상반되 는 조작을 수행한다. Root 프로쎄스는 자기 자체 를 포함하여 
«개 프로쎄 스들에 개 별적통보문을 송신한다. 이 «개 의 통보문들은 원래 Root 프로쎄 스의 
송신완충기 에 순위 에 따라 보존된다. 매 수신완충기들은 3원무이 ( RecvAddress , RecvCount , 
RecvDatatype ) (수신주소，수신계산，수신자료형)에 의 하여 식별된다. 송신완충기는 모든 
non-Root 프로쎄스에서는 무시된다. Root 프로쎄스에 대하여 이것은 3 원무이 ( SendAddress ， 
SendCount , SendDatatype )( 송신주소，송신계 산，송신자료형)에 의 하여 확인된 다. 

전체 교환 (Total Exchange ) 

전체 대 전체 의 총교환루린 즉 

MPI _ Alltoall ( SendAddress , SendCount , SendDatatype , RecvAddress , RecvCount , 
RecvDatatype , Comm ) 

에서 모든 프로쎄스는 자기자체를 포함하여 n 개의 프로쎄스들가운데서 매개에 개별적통 
보문을 송신한다. 이 통보문들은 송신완충기에 원래의 순위에 따라 보존된다. 다른 측 
면에서 통신을 고찰해 보면 모든 프로쎄스들이 개개가 n 개의 프로쎄스들로부터 통보문 
을 수신한다는것 을 알수 있다. 이 n 개 의 통보문들은 순위 에 따라 련결 되 여 수신완충기 
에 보존된 다. 총 교환은 n 개 의 모으기 와 갈으며 그것 은 서 로 다른 프로쎄 스에 의하여 
진행된다. 따라서 Root 인수는 더는 필요 없게 된다. 전체 대 전체에서 « 2 개의 통보문이 
총교환으로 통신된다. 


집 합화 ( Aggregation ) 

보아는 두가지 형의 집 합화 즉 축소와 주사를 제공한다 (2.4.1 볼것). 

MPI 축소루린의 문법은 다음과 같다. 

MPI _ Reduce ( sendAddress , RecvAddress , Count , Datatype , Op , root . Comm ) 

여 기서 매 프로쎄 스들은 SendAddress 에 보관된 값을 유지한다. 모든 프로쎄 스들은 이 
값들을 최 종결 과로 감소시 키 며 Root 프로쎄 스의 RecevAddress 에 보존한다. 자료항목의 자 
료형 은 Datatype 마당으로 규정한다. 축소조작자는 축소와 류사한 문법 으로 되 여 있 다. 

MPI _ Scan ( SendAddress , RecvAddress , Count , Datatype , Op , Comm ) 

Root 마당은 없으며 따라서 주사는 n 개의 최종결과들에 대 한 값들을 결합하여 «개 프 
로쎄 스 RecvAddress 에 보관한다. MPI 축소 및 주사루린들은 매 프로쎄 스들의 벡 토르를 기 
증할수 있다. 벡토르의 길이는 Count 로 규정된다. 

MPI 는 리용자가 정 의하는 축소 혹은 주사조작을 지 원 한다. 
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장벽 

장벽 조작 MPI-Barrier(Comm) 에서 통신기 Comm 의 모든 프로쎄스들은 서 로 동기화되 
여 있다. 즉 프로쎄 스들은 개 별적 인 MPi-Barrier 와 함수가 실행 되 기 전까지 는 대 기 한다. 

집체적루린의 일반적특징들 

MPI 에서 모든 집중통신조작은 다음과 같은 몇가지 공통적인 특징을 가진다. 

• 통신기의 모든 프로쎄스들은 집중통신루린을 반드시 접근해 야 한다. 일부 통신 
기성원들이 집체적루린을 호출하는 코드는 다른것들이 그것을 접근하지 않는 동 
안은 오유이다. 오유코드의 동작은 명백치 않으며 교착 혹은 틀린 결과를 포함하 
여 임의의것을 내보낼수 있다. 

• MPI Barrier 을 위한 모든 집체적루린은 점대점통신에서 표준과 류사한 통신방식 
과 차단방식을 리용한다. 즉 집중조작의 참여가 끝나자마자 프로쎄스는 집체적 
루린으로부터 귀환된다. 실례로 Root 프로쎄스가 MPI_Bcast 에서 귀환될 때 보내 
기 완충주소는 안전하게 다시 리용될수 있 다는것 을 의 미한다. 다른 프로쎄 스들은 
그것의 대 응하는 MPI_Bcast 로 아직 출발조차 할수 없다. 

• 집체적루린은 그 실행에 따라 동기화하든지 동기화하지 않을수 있다. MPI 는 사 
용자가 동기 화실 행 이 선택되 든 선택 되 지 않든 코드가 정 확하다는것 을 담보하는 
응답성을 취 할것을 요구한다. 

• 계산과 자료형은 관련되는 모든 프로쎄스우에서 호환 (정합) 되여야 한다. 

• 집체적루린에 는 tag 인수가 없다. 통보문봉투는 통신기 인수와 원천/목적지 프로쎄 
스들을 지정 한다. 실례 로 MPI_Bcast 에서 통보문의 원천은 Root 이 며 목적 지는 프 
로쎄 스 (Root 를 포함하여 ) 전체 이 다. 


실 례 13.14. MPI 프로그람에 서 배 렬 조종 

세개의 프로쎄스로 실행 되 는 MPI 를 고찰하자. 이 것들은 모두 초기 에 다음의 코드를 
실 행 한다. 


Int i, j, my_rank, group, size, A[3], B[3], tag=l, root=0; 
MPI_Comm comm; 

MPI_Init(&argc,&argv); 

comm=MPI_COMM_WORLD; 

MPI_Comm_rank(comm. ，& my_rank); 
MPI_Momm_size(comm. ，& group_size); 
for(i=0;i<3 ;i++) {A[i]=B [i]=my_rank*group_size+i;} 


다음의 코드부분의 매개가 실행된 이후에 프로쎄스 2 에서 A[l], 미이의 값들이 얼마 
인가? 
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(1) if ( my _ rank ==0){ 

MPI _ Bcast ( A ， 3， MPI _ INT , root , comm ); 

MPI _ Send ( B , 3, MPI — INT ， 2, tag , comm ); 

}else if ( my _ rank == l ){ 

MPI _ Bcast ( A , 3， MPI _ INT , root , comm ) ; 

Else { 

MPI 一 Recv ( B ， 3， MPI _ INT , 0, tag , comm ) ; 

MPI _ Bcast ( A , 3， MPI _ INT , root , comm ) ; 

} 

(2) MPI _ Bcast ( A ，3， MPI _ INT ， root ， comm ); 

(3) MPI 一 Scan ( A ， B ，1， MPI 一 INT ， MPI 一 SUM ， comm ); 

(4) MPI _ Scatter ( A , l , MPI _ INT , B , l , MPI _ INT , root , coinm ); 

풀이 초기코드가 실 행 된 후 배렬 A 와 B 는 다음의 값을 가진 다. 


표 13-7 3 개의 프로쎄스에서 배 H 값 



프로쎄스 0 

프로쎄스 1 

프로쎄스 2 

A [1]= B [1] 

0 

3 

6 

A [1]= B [1] 

1 

4 

7 

A [1]= B [1] 

2 

5 

8 


(1) 코드는 프로쎄 스 0의 배 렬 표를 프로쎄 스 2로 보내 고 프로쎄 스 0의 배 렬 A 를 모 
든 프로쎄스들로 방송하려 고 한다. 따라서 답은 프로쎄스 2에서 A [ l ]= l , B [이=0 
이 다. 그러 나 이 코드는 오유이다. 왜 냐하면 MPI_Bcast 가 동기적 으로 실행될 때 
교착되 기때 문이 다. 따라서 이 코드는 MPI- 정 합이 아니며 결과는 명백치 않다. 

(2) 프로쎄스 2에서 A [ l ]= l , B [0]=6 

(3) 이 조작은 A [이의 (0, 3, 6) 을 주사하고 프로쎄스 0 에서 B [0]=0， 프로쎄스 
1에서 B [0]=0+3=3， 프로쎄스 2에서 B [0]0=0+3+6=9 를 생성한다. 

(1) 의 루린은 프로 쎄스 0에서 배렬 A 의 3개 원소를 모든 3개 프로 쎄스로 산란 
시킨다 (프로 쎄스당 한개 원소가 대응되도록). 대답은 프로 쎄스 2에서 A [ l ]=7 과 
B [0]=2 이 다. 
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1 3. 2. 5. MP 卜 2 확장 


MPI 는 1994 년에 규격 화되 면서 거의 모든 병 렬체 계 에서 리용되 였 다. 실행 가동환경의 
범위는 MPP 콤퓨터와 SMP 봉사기 로부터 워크스테 이 션과 PC 의 클라스터까지 이 다. 그러 나 
사용자는 더 많은 기능이 추가될것을 요구한다. 1997 년에 MPI 연산은 MPI-2 라는 수정된 
규격 을 발표하였 다. 원래 의 MPI 의 이 름을 MPI1 로 개 칭하였 다. MPI2 는 많은 새 로운 특징 
들을 추가하였으며 사용자/판매자공동체는 그 모든 특징들을 포섭하기 어려울수 있다. 이 
문제 를 취 급하기 위하여 동적프로쎄 스와 일 방적 인 통신을 리용한다. 따라서 간단히 다른 
MPI-2 의 특징들을 개괄한다. 


동적 프로쎄 스 

MPI-2 의 병렬프로그람에서 프로쎄스들은 정적이다. 즉 프로그람은 주어 진 개수의 
프로쎄스들을 가지고 시동하며 프로그람의 실행도중에 그 어떤 프로쎄스도 추가하거 나 
제 거 할수 없 다. MPI-2 은 동적 프로쎄 스를 지 원 한다. 

그 우점은 다음과 갈다. 

• MPI-1 은 프로쎄스들이 어떻게 생성되며 그것들이 통신을 어떻게 형성하는가를 
밝히 지 못한다.그러 므로 MPI-1 은 SP2 에 서 의 POE, 워 크스테 이 션망에서 와 같은 
능력 을 보장하기 위한 기 초적 인 가동환경 을 요구한다. MPI-2 에 서 동적프로쎄 스 
트랜잭 션은 이 식 가능한 ( 가동환경 에 무관계한) 방식 으로 이 능력 을 보장한다. 

• 동적 프로쎄 스는 보라에 PVM 코드를 이 식 하는것 을 촉진한다. 그것 들은 의 뢰 기- 
봉사기와 프로쎄 스조와 같은 중요한 응용클라스터 들을 리 용가능하게 한다. 

• 동적프로쎄스는 자원과 부하균형 을 더 효과적 으로 리용하게 한다. 례 를 들어 
리용된 마디점은 필요에 따라 줄거나 늘어 난다. 

• 고장허 용도 지 원될 수 있 다. 한 마디점 이 실패하면 그우에 서 실 행하는 프로쎄 스 
는 다른 마디 점 에 만들어 진 새 로운 프로쎄 스에 로 장애넘 기할수 있 다. 

MPI-2 동적프로쎄스운영에 일련의 새로운 기능을 추가해 준다. 다음의 형태를 가진 
MPI_Spawn 에 대 하여 론의 한다. 

Int MPI_Spawn( 

Char command _ line ， 

Int minprocs , 

Int maxprocs . 

Char info , 

Int root , 

MPI_Comm comm , 

MPI_Comm intercomm , 

\ n { array _ of_errcodes 


/* 실행가능한것과 인수*/ 

/* 실 행 해 야 할 과제 의 최 소수*/ 

/* 실행해 야 할 과제의 최 대수*/ 

/* 프로쎄스출발방법과 장소*/ 

/* 뿌리(부모)프로쎄스의 위수*/ 

/* 뿌리과제의 통신자*/ 

/* 통신자와 새로 생성된 프로쎄스사이의 호상 
통신자*/ 

/* 생성된 과제당 오유통보*/ 



이 기능은 maxpracs 라는 자식 프로쎄스를 퍼 뜨리려고 노력 한다. 매개는 command_line 
에 지 적된 곡 같은 코드를 실행한다. 만일 MPI 가 ma 쨘 rocs 프로쎄 스를 퍼뜨릴수 없으면 
w/npracs 프로쎄 스를 퍼 뜨리 게 할수 있 다. MPI_Spawn 가 m/nprocs 프로쎄 스를 만들지 못하 
면 오유가 발생 된다. /n/o 인수가 어 디서 언제 프로쎄 스를 시동시켜 야 하는가를 지 정할수 
있도록 실행시 간체 계 에 맡긴다. 

Array _ of_errcodes 는 길 이 waxpracs 의 배 렬 이 다. 12 개 의 프로쎄 스가 성 과적 으로 시 동 
될 때 array_£>/_crrcc>6ks 의 첫 소개 요소들 매개에 MPI_Success 가 포함되게 되는 한편 나 
머지 매 요소들은 프로쎄스가 왜 성과적으로 시동되지 못하는가 하는 원인을 알려 주는 
오유 코드를 포함하게 된다. 

MPI_Spawn 은 집체적인 조작으로서 이것은 통신기 comm 의 모든 성원들이 그 프로쎄 
스를 생 성하도록 접 근되 여 야 한다는것 을 의 미한다. 

그러 나 Root 프로쎄스에서 인수들인 command ._ line , minprocs , maxprocs ^ /n/o 들만이 의 
의 가 있으며 다른 프로쎄 스우에 서 이 인수값은 무시 된 다. 따라서 comm 에 서 퍼 뜨리 기프 
로쎄스는 모든 프로쎄 스에 대 하여 자식 으로 간주할수 있지 만 뿌리프로쎄 스만이 진짜 부 
모이 다. 자식들을 MPI_Spawn 으로 집중되는 MPI_Initialize 로 호출하여야 한다는것을 의미 
한다. 자식과 부모프로쎄스들은 intercomm 이 라는 호상통신기를 통하여 통신한다. 

이 것 들은 부모프로쎄 스에 있는 MPI_Spawn 에 의 하여 귀 환되 며 자식 프로쎄 스는 
MPI_Parent 기능을 접근함으로써 호상 통신기를 조종할수 있 다. MPI _ parent 는 

int MPI_parent(MPI_comm. *intercomm) 

형태를 가진다. 


일방적 통신 

MPI-2 에는 일방적통신기능을 실행할수 있도록 하는 프로쎄스인 원격기 억접근 (RMA) 으 
로 불리우는 새로운 점대점통신모형이 포함되여 있다. 여기서는 한 프로쎄스가 다른 측의 
참가없이 원천으로부터 자료값을 꺼낼수 있으며 목적지에 송신할수도 있다. 이것은 MPI- 
1 과 대조된다. MPI-1 에서 모든 점대점통신은 쌍방적 (two-sided) 이 다. 

이때에는 송신자와 수신자프로쎄스들이 둘 다 참가하여야 한다. MPI-2 는 RMA 를 
지 원 하기 위하여 풍부한 기 능을 포함하고 있다. 세 가지 RMA 기 능만 보자. 

원격 조작전에 기 억 기 창문을 설 정하여 야 한다. 

이것은 MPI-RMA 기능으로 실행되는데 다음과 같다. 


Int MPI_RMA_init( 

Void window _ base , /* 

Int window _ size , /* 

Int disp _ unit , /* 

MPI_Comm comm , /* 

MP\_Comm newcomm /* 


기억기창문의 기초주소*/ 

바이 트단위 의 기 억 기 창문크기 */ 
변위에 해당한 단위의 크기*/ 
현재의 통신자*/ 

RMA 용 새 통신자*/ 
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통신기 comm 에서 모든 프로쎄스들은 같은 MPI_RMA_init 를 집체적으로 찾아야 한다. 
이 집 체 적 호 출 은 newcomm 이 라 는 새 로 운 통 신 기 에 귀 환 된 다 . 매 접 근 프 로 쎄 스 는 
newcomm 에서 임의의 프로쎄스에 의 하여 원격접근할수 있다는것 을 자기의 주소공간의 창 
문에 지 정 하여 야 한다. 창문은 에 서 시 동되 며 만한 크기 를 

가진다. 임의의 RMA 조작은 出따_««&라는 하나의 단위로 창문에 접근되여야 한다. 

실례로 disp_unit=& 일 때 RMA 는 公 ase+8， window_base+ 16 등에서 시동되는 자 

료완충기 에 접근할수 있 다. 그러 나 에서 되지 않는다. 

일방적복귀는 get 로 불리운다. MPI_Get 는 다음의 형태를 가진다. 

int MPI_Get(void*Jes?_a<iJr,MPI_Init dest_count, 

MPI_Datatype dest_datatypesource_rank,int source_disp, 
int 公ᄍ호， MPI_Datatype source_datatype, 

MPI_Comm comm, 

) 

이 함수는 원천처 리 기억기창문의 자료완충기의 내 용을 목적지프로쎄스(호출프로쎄스) 
의 자료완충기에 전송한다. 

원천프로쎄스는 comm 파 s£>wrce_ran 소쌍에 의하여 일의적으로 지정된다. 

원천기 억 기 창문은 이 미 있는 MPI_RMA_init 호출에 서 실제 적 으로 newcomm 인 comm 에 
의하여 결정된다. 

원 천 자 료 완 충 기 는 window_base+source_disp*disp_ unit 에 서 시 동 된 다 . 이 것 은 
source_datatype^ 자료항목 5WMce_coi<nf 를 포함한다. 목적 지 자료완충기 는 dest_addr^ A ] 
시동되며 dest_datatype 형의 자료항목 dest—count 을: 포함한다. 

MPI_Get 는 차단기 능이 다. 이 것은 자료가 목적지자료완충기 에 도착한 다음에 귀 환 
된 다. 

일 방적 송신은 put 에 의하여 호출된 다. 

MPI_put 는 MPI_Get 와 매우 류사하다. 즉 

int MPI_Get(void*>soMrce_aJdr,MPI_Imt source_count, 

MPI_Datatype source—datatype ， int dest_rank,vat dest_disp, 
int dest_count， MPI_Datatype dest_datatype, 

MPI_Comm comm, 

) 


이다. 

차이 점 은 자료전송방향이 반대 라는것 뿐이 다. 

자료는 목적지기 억기 창문을 완충한 원천자료의 복사이다. 

MPI_Get 는 차단기능이다. 이것은 자료가 원천자료완충기에서 떠난후에 귀환된다. 
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기 타 MPI 확장자들 

동적프로쎄 스와 일 방적 통신외 에 MPI -2 는 MPI -1 을 다른 측면 에 서 확장해 준다. 
아래에서 그 부분의 명세를 라렬한다. 

• 집 중통신은 비차단방식 과 호상통신기 를 포함시 키 기 위하여 확장하였 다. MPI _1 에 
서는 다만 차단과 호상통신기 에서 집체적인 통신이 지원되 였다. 

• MPI _2 는 확대 가능한 I / O 가 보충되 였다. 그것을 MPI - IO 라고 부론다. MPI -1 에서 
I / O 문제 는 무시 된 다. 

• MPI -1 에서는 다만 포트란 99와 C 를 위해서만 국한되여 있다. MPI -2 에서는 포트 
란 90과 C ++ 이상으로 확장되 였다. 

• MPI -2 는 실 시 간프로쎄 스를 위 한 지 원 이 보충되 였 다. 

• MPI -2 는 MPI -1 의 외부대면부를 확장하여 MPI 대상에 대 한 보다 접근가능한 환 
경 도구쓰기장치 를 주었 다. 

• MPI -2 는 MPI -1 를 확장하여 비차단집 중통신호상통신기 들을 허 용하였 다. 

1 3. 3. 병렬가상기계 ( PVM ) 

PVM 은 원래 Unix 를퓨터만이 대규모의 통보문넘기기병렬콤퓨터로 리용되도록 설계 
된 자체 포함형 공개령 역 쏘프트웨 어 체 계 이 다. 인기 가 높아 지 면서 그것 은 SMD , PVP , MPP 
그리고 워크스테이션과 PC 의 클라스터에 이식되였다. PVM 은 Windows NT 와 Windows 95 
와 같은 비 Unix 가동환경에 대하여 실현되였다. 프로그람지원언어는 C , 포트란과 Java 이다. 


개발력 사 

PVM 의 개 발은 1989년에 Oak Ridge 국립 연구소에서 시 작되 였다. 그 연구 및 개 발은 
아직도 종합대학들과 연구소의 연구사들을 망라하는 계획이다. 비록 더욱더 많은 사람들 
이 MPI 를 리용하고 있 다 하지 만 PVM 은 여 전히 가장 일 반적 인 병 렬 처 리 용쏘프트웨어 가 
동환경 이 다. 

PVM 에 의하여 사용자는 완전히 련결마디 점들의 모임 즉 가상기 계 를 구성할수 있다. 
매 마디점 은 순차식， 벡 토르 혹은 병 렬콤퓨터 와 같옷 임의 의 Unix 콤퓨터 가 될수 있다. 
그래서 사용자는 많은 프로쎄 스들을 동적 으로 만들고 관리하며 이 가상기계 에서 실행할 
수 있 다. PVM 은 프로쎄 스사이 의 통신과 다른 기 능을 지 원 하는 서고루린 을 제 공한다. 


MPI 와의 비교 

PVM 과 MPI 의 기 본차이 는 PVM 이 독립 적 인 체 계 라고 할 때 MPI (보다 명 백하게는 
MPI -1) 는 그렇 지 못하다는것 이 다. 보아는 프로쎄 스관리 와 I / O 기 능을 보장하기 위하여 중 
요한 장치에 의존한다. 이 기능은 PVM 에 포함되여 있다. 반면에 MPI 는 통보문넘기기에 
서 보다 유력하다. 그러 나 MPI 와 PVM 은 표준이 아니 다. PVM 은 이 식 가능하지 못하다. 
지 난 2년 간 …보은 안정 되 여 있 다. 

이제부터 PVM 에 대하여 고찰하자. 
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1 3. 3. 1 . 가상기계구성 


PVM 체 계 는 두개 부분으로 이 루어 진다. 즉 가상기 계 의 매 콤퓨터 에 상주하는 
PVM 데 몬 (pvmd 라고 부론다.)과 프로쎄 스관리，통보문넘 기 기 그리 고 가상기 계관리 와 
련결되는 사용자접근가능한 서고 ( libpvm 3 a 라고 부론다.) 로 이루어 진다. 

기본사용을 보여 주는 몇개의 단순한 실례를 리용한다. PVM 인 이 설계들이 보여 주는 
것보다 훨씬 강력하고 유연하다. PVM 을 어떻게 설치하고 리용하는가는 PVM 사용자안내를 
보면 된다. PVM 에서는 마디를 호스트라고 부론다. 또한 프로쎄스를 과제 라고 부론다. 


PVM 조종 탁 

PVM 을 설 치한후 사용자는 호스트로부터 PVM 조종탁을 창조하는 다음과 같은 명 령 
을 결 정한다. 


Pvm host_file 


이 명 령을 성과적 으로 실행하자면 호출호스트와 임의의 host_file 에서 렬거된 매 호스 
트에서 출발해 야 하며 호출호스트(마스터 host 라고 부론다.)에서 다음과 같은 prompt 를 현 
시해야 한다. 


Pvm > 


이것은 호스트가 PVM 조종탁방식 에 있다는것을 가리킨다. PVM 조종탁은 자립형 이 고 
호상작용 PVM 프로쎄스이며 shell 과 류사하다. 사용자는 가상기계를 관리하고 PVM 응 
용일감을 호출하며 일감실행을 감시하는 명령들을 전형으로 한다. 

표 13.8 에 자주 쓰이 는 PVM 조종탁명 령 들을 렬 거 한다. 

동적 구성 

가상기 계 는 PVM 서 고함수들을 호출하는 사용자응용프로그람에 의하여 동적 으로 구 
성될수 있다. Pvm_addhosts 와 pvm_delhosts 함수들을 하나 혹은 그이상의 호스트 ( host ) 들을 
가상기 계 에 더하거 나 더 는데 쓴다. 

int info , nhost =2, infos [2]; 

Char * hosts []={ “ apple ” ， “ orange . Usc . edu ” } 
info = p \ m _ SLddhosts ( hosts f nhost ， infos ); 
info = p \ m _ d 6 lhosts ( hosts , nhosts ， infos ); 

이 함수들은 두개의 호스트 “ apple ” 과 “ orange ” 를 각각 첨 가하거 나 제 한한다. 호 
스트이름은 생략할수도 있다. 
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표 13-8 

주요 PVM 조종탁명령 

명령 

동작의 미 

pvm> add apple 

"apple" 을 가상기계 에 침가 

pvm> delete apple 

호스트 "apple" 을 가상기계 로부터 삭제 

pvm> conf 

가상기계구성을 렬거 

pvm> spawn -count 4 app 

가상기 계 에서 "app" 을 실 행시키기 위한 4개과제륜 ♦발 

pvm>job$ 

가상기계에서 동작하는 일감멸讀 

pvm>halt 

모든 PVM 륜 중지하고 PVM 을 끝낸다 


변수 hosts 는 호스트의 이 름이 고 nto 자첨 가되 였거 나 제거한 호스트수이 다.옹근수렬 
infos ^\ 길이 nhost 는 매 호스트에 되돌아 오는 상태코드를 말한다. 

부수값은 오유조건을 가리킨다. 이 두개의 함수들이 첨 가되 였거 나 제거된 호스트수 
들을 되돌려 보낸다. 완전히 성공하면 info 는 nhost 와 같아 진다. 


기구와 실행 

출발된 첫 번째 pvmd 를 마스터 pvmd 라고 부론다. 다른 pvmd 데 몬들은 마스터 ( master ) 
에 의해 련속 출발되 는데 슬라브 ( slave ) 라고 부론다. 마스터 와 슬라브데 몬들의 모임 은 가 
상기계를 이룬다. 가상기계는 모든 시 간에 정확히 한개 마스터를 가진다. 

최소가상기계는 바로 하나의 성원 즉 마스터로 이루어 진다. 단지 마스터는 가상기 
계로부터 슬라브를 첨가하거 나 제거할수 있다. 그러 나 첨 가 혹은 제거슬라브에 대한 요 
청은 마스터데몬외부에서 온다. 그러한 요청 은 언제 나 마스터 데몬을 넘기 기해서 특정한 
호스트의 슬라브를 출발시킨다. PVM 은 마스터가 rsh , rexec (), 그리고 다른것들을 거처서 
슬라브를 출발시키게 한다. 

호스트표라고 부르는 자료구조는 매 호스트에 거주한다. 호스트표는 가상기계의 매 
호스트에 대 한 호스트서술자라고 부르는 입 력을 가진다. 호스트서술자는 통신을 위한 
파케트대 기렬과 통보문완충기 는 물론 호스트구성정 보를 가지 고 있다. 초기 에 호스트표 
는 마스터 host 에 대한 단 한개의 입력자료를 가진다. 

새 로운 슬라브가 가상기계 에 첨가될 때 마스터 host 의 호스트표는 새롭게 첨 가된 슬 
라브를 위한 새 로운 입 력을 포함하도록 갱 신된다. 그다음 갱 신된 호스트표의 정 보는 전 
체 가상기계에 발송되여 새롭게 첨가된 슬라브 host 들을 포함한다. 이렇게 하여 가상기계 
의 모든 호스트의 호스트표들은 호스트충돌과 망고장을 제외하고 동기화되고 일치된다. 

가상기계가 어떻게 재구성되는가를 보기 위하여 호스트가 그림 13-6 에서 어떻게 첨 
가되 는가를 토론하자. 

가상기계 가 두개의 호스트 H 1 과 H 2 로 이루어 졌다고 가정 하자. 

호스트 H 2 에 서 PVM 과제 는 새 로운 슬라브 host H 3 을 가상기 계 에 첨 가하기 위 하여 
PVM 서 고함수 pvm _ addhosts () 를 접 근한다. 이 통보문은 호스트 H 2 의 PVM 데몬 pvmd 2 을 
넘기기 하여 함수 dm _ addhost () 를 접근한 다음 마스터 pvmdl 을 넘기기 한다. 

마스터 데몬은 p V md 3 을 출발하기 위해 rsh (혹은 다른 수단)를 리용하며 슬라브구성정 
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斗 모든 호스트표들이 갱신되였다는것을 결정한후 통」 
각기 호스트표들을 가지게끔 한다. 동시 에 마스터는 
였다는것 을 통보한다. 파제 T 는 pvm _ addhost 가 완료_ 
차단한다(대 기 한다.). 

3. 2. PVM 에서 프로쎄스관리 

정적 그리고 동적병렬성을 가능하게 한다. 정적병1 
，자는 PVM 조종탁에서 “ spawn_count 4 foo " 를 실행 1 
4개 과제 (프로쎄스) 의 병 렬응용을 창조하여 가상 7 
a ■드 / oo 를 실행 한다. 응용은 / oo 가 동적 과제 창조함수 
DOP 4를 가진다. 

spawn_count 4 foo ” 는 4개 파제 SPMD 프로그람이 ^ 








PVM 은 과제를 호스트로 넘기는 배당알고리듬을 제공한다. PVM 은 사용자가 매 과 
제에 대한 특정호스트 혹은 구성방식을 명백히 규정하도록 한다. 실례로 조종탁명령 

pvm>spawn_(a/5pZe)/oo 

은 host opp/e 에 서 파제 를 시 작하여 코드 / 00 를 실 행 한다. 명 령 
pvm>spawn_( 구? 5公公)/ c>o 

은 AIX 조작체 계 를 리용하는 RS/6000 마디 에 서 과제 를 시 작한다. 



프로쎄스관리함수 

PVM 은 MPMD 병 렬 성 과 동적프로쎄 스관리 를 허 용한다. 가장 중요한 함수는 
pvm_spawn() 이 다. 

이것과 다른 프로쎄스관리함수일부를 표 13-8 에 렬거한다. 
pvm_spawn 함수를 자세히 보자. C 에서 함수견본과 개요는 다음과 같다. 

Int numt // 출발과제 의 실제개 수 
=FVM_spawn( 

Char * progm , // 실행 가능한 파일 이 름 
Char ** argv , // 인수배 렬지적 자 

Int flag , //어 느 호스트에 생 성 하겠는가를 규정 하기 위 하여 선택 된 항목 

Char * where , II flag 를 가진 작업 

Int ntask , // 출발실행 가능한 복사개수 

Int *tid // 생 성 된 과제 의 과제 식 별 자보존 

) 


654 




= •는 실행 가경•한 progm 라는 ntask 복사본을 만든다. Progm 에 대한 인수는 a ] 
대렬 에 포함된다. 기 발은 표 13-10 에서 보여 준 선택값들의 합으로 설정된 t 


표 13-10 pvm_spawn 에서 fl 的파라메터 


선택 
; 기호 

선택값 


PvmTask 

Default 

0 

호스트는 PVM 에 의 해 선택 

PvmTaskHost 

1 

호스트는 어 디 에 서 나 지 정 

PvmTaskArch 

2 

구성방식은 어디에서나 지정 

PvmTaskDebug 

4 

오융수 •찰 i ] 밀 에 M 시 동처 리 

PvmTaskTrace 

8 

PVM 추적자료가 발생된 tf ： 

PvmMppFront 

16 

MPP 앞단위에-돼 동 처리 

PvmHost- 

Compl 

32 

호스트나머지모임려용 


표작을 지 원하기 위 하여 PVM 은 Ubpvm 3. a 라고 부르는 개 별적 인 서 고를 리 4 
부 PVM 서 고우에 libpvm 3. a 를 놓는다. 

데 몬 pvmd 는 그룹화함수를 조종하지 않으며 그룹봉사기 라고 부르는 개 별데든 
된 다. 

몬은 첫 번째 그룹함수가 호출될 때 자동적 으로 출발한다. PVM 은 동적그룹회 
과제는 임의의 순간에 그룹을 결합 혹은 분리할수 있다. 일부 그룹함수들을 
과1시 한다. PVM 동적그룹화개 념 은 아주 유연적 이 다. 다중그룹이 될수 있고 과제 


표 13-11 PVM 그룹함수 


PVM 함수호출 

의미 

inum=pvmJomgroup(“World”); 

호줄과제는 그롭 World 를 결함하고 
실베 수 inum 에 할당 한 다 
실레수는 MPI 에서 렬과 같다 

info 정 vTn_lvgroup(“World’’); 

호출과제는 그롭 World 를 출발 

tid=pvm 」 gettid(“Wioii(I’' inum); 

실베 수로부터 과제 ID 얻 기 

imim=pvm_ 」 getinst(“’WOTld” ， tid); 

과제 ID 로부터 실례수얻기 

gsize=pvmjsize(“Worid”); 

그롭 크기얻기 

info=pvm_barrier( a WorId , *, 10); 

호♦과제는 World 의 성원이 10이 
될 때까지 차단(대기) 

info=pvm_bcast( a World ,, J tag); 

태그에 의해 식별되는 통보문을 

Woild 의 모든 성 원들에 
방송(자체는 제외) 

info=pvm_reduce(.. .)； 

MPI 에서 경^와 류사하다 








동시에 각이한 그름에 속할수 있다. 과제는 다른 그롭의 성원들에 통보함이 없이 임의의 시 
각에 그름을 결합 혹은 탈퇴 할수 있다. 과제 가 언제 나 그롭안에서 유일한 순위를 가지는 
MPI 와는 달리 PVM 은 그것이 그룹을 탈퇴하거나 재결합할 때 각이한 경우의 수들이 배정될 
수 있다. 

과제는 그룹의 성원이 아니다 하더라도 통보문을 그룹에 보낸다. 

동적그룹화는 프로그람의 비결정동작을 증가시 킨다. 실례 로 과제 가 그름을 결합하거 
나 랄퇴 할 때 방송동작은 각이한 결과를 가져 올수 있다. 과제 는 방송통보문을 엄거 나 얻 
지 못할수 있 다. 장벽동작은 성 원과제 들이 그룹을 탈퇴한다면 교착상태 에 이 르게 할수 
있 다. 


과제 식 별자 

PVM 長 가상기 계안에 서 과제，그룹 혹은 pvmd 를 주소화하기 위하여 32bit 옹근수를 
리용한다. 이 옹근수를 과제 식 별 자 (TID) 라고 부른다. 일 반적 인 TID 형 식 을 그림 3.17 에 보 
여 준다. 

32bit 를 4개 마당으로 나눈다. 즉 봉사비트 S (데몬은 종종 봉사기 라고 부론다.)，그룹 
비트 G, 12bit 호스트마당 H, 18bit 국부마당 L. 

31 30 29_18 17_0 

FR I H I II L -「 

그림 13-7. PVM 일 반 TID 형 식 

이 마당들의 여러가지 결합해석을 표 13-12 에 제시한다. 여기서 4095=2 12 _1은 가상기계 
에 서 호스트의 최 대 수이다. 호스트당 과제 의 최 대 수는 262143=2 18 -1이 다. 

실지 실행에서 조작체계는 호스트당 과제수를 훨씬 작은 수로 제한한다. 

S=G=0( 즉 봉사기 나 그룹이 없 다.)일 때 TID 는 과제 를 식 별한다. 과제 는 H 마당의 호 
스트에 상주하며 국부프로쎄스 ID 는 L 마당에 포함된다. 

이 부호화도식에 따라 과제는 내부호스트통신이 없이 TID 를 국부 pvmd 로 배정될수 
있 다. 


표 13-12 과제식별자의 해석 



<5 

n 

L 

의비 


0 

MOM 


]p 

3 

1 


CKmlcwt 

미 단내방송주소 

1 

& 

0 

0 

국單 pvmd 


D 

I..4W5 

0 겨 

ApvrtidED 


1 

작은 부수산 

오홈 _a 드 


S=0, G=1 일 때 TID 는 과제그롭을 식 별 하여 통보문을 내 부방송으로 다중호스트에 보 
내게 한다. 
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이것은 집중 혹은 대역 동작을 지 원하는 과제 그룹개 념과 차이 난다. 

S = l ， G = H = L =0 일 때 TID 는 국부 pvmd 를 식별한다. H 마당이 정수이면 TID 는 H 마당에 
서 지적된 호스트수를 가지고 국부 혹은 원격 pvmd 를 식별한다. S = H =1 일 때 TID 는 오유 
조건을 지 적하는데 쓴다. 

1 3. 3. 3. PVM 에서 틍신 

가상기 계 에 실 행하는 PVM 프로글마은데몬과 과제 들을 포함한다. 데 몬과 과제사이， 
두개 의 데 몬사이 그리 고 두개 의 과제사이 의 통신을 비 롯한 여 러 형 태의 통신이 가능하다. 
병 렬계산을 위한 자료를 넘기 기시키는것외 에 PVMD 들가운데서 heartheat 통보문들을 넘기 
기시키는 통신이 요구된다. 

통신규약 일 반적 인 PVM 은 가상기 계 의 매 호스트 TCP 와 UDP 를 리용하는 다른 모 
든 호스트에 직 접 련결 할수 있 다고 가정한다. 이 규약은 그것 이 표준적 이 고 널 리 리용할 
수 있기때 문에 선택된다. 이 것은 핵심부를 수정할 필요가 없다는 우점 이 있지만 부가프 
로쎄 스가 매 우 크다. PVM 에 서 리용되 는 통신규약을 그림 13-8 에 보여 주었 다. 그림 에 서 
보는것처럼 세가지 형태의 통신 즉 두개의 pvmd 사이 ， pvmd 와 과제사이 그리고 두개의 
과제사이의 통신이 있다. 



두개 의 pvmd 사이 의 통신에 서 는 UDP 를 리용한다. TCP 대 신에 UDP 를 리용하는 리유 
는 세 가지 이 다. 첫 번째 리 유는 확대 가능성 이 다. 매 TCP 련 결 은 pvmd 에 서 파일 해 석 기 를 
리용한다. 열 려 지는 파일수는 임의의 조작체 계 에 의해 제 한된다. 한편 단 하나의 UDP 소 
케트는 많은 수의 원격 UDP 소케트와 통신할수 있다. 

두번째 리유는 TCP 를 리용할 때 n 마디점 가상기계 에 대 하여 «( n _ l )/2 개 의 련결 이 필 
요한것이다. 이것은 관리비용이 비싸다. 

UDP 는 다음과 같은 련결위 상에 따라 초기 화할수 있다. 즉 pvmd 들사이 에 는 련결 이 
명시적으로 설정되지 말아야 한다. 

세번째 리유는 호스트 , pvmd 그리 고 망고장을 검 출하기 위하여 UDP 에 시 간경 과를 
설 치 하기 가 더 쉽 다는것 이 다. Pvmd 와 과제 들사이 의 통신은 주로 TCP 가 UDP 에 비해 믿 
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음직한 전송을 보장하기 때 문에 TCP 규약을 리용한다. 두개 의 과제사이 의 통신은 두가지 
방식 으로 달성 될 수 있 다. 기 정방식 에 의하면 한 과제 로부터 다른 과제 에 전송되 는 임 의 
의 통보가 경 로전체 를 순회 한다. 다른 방식 은 (원천과제 대 원천 pvmd ) 대 (목적 pvmd 
대 목적 과제 ) 이 다. 

교대적 으로 원천과제 로부터 목적 과제 로 TCP 련결 을 통해 통보문이 직 접 전송될 수 있 
다. 두번째 방법은 통보문순회부가처 리는 감소시키지만 우에서 언급한 TCP 련결의 약점 
을 가진다. 

PVM 통신기능 PVM 의 사용자는 우에서 언급한 세가지 형태의 통신을 알 필요가 없 
다. 그것 들은 단지 고수준통신기 술의 묶음이다. PVM 은 많은 기 술들을 제 공한 착상만을 
례 증하기 위하여 그중 몇 가지 만을 론의한다. 표본 PVM 통신기능을 그림 13-9 에 보여 주 
었 다. 

때 에 따라 PVM 과제는 하나의 능동송신완충기와 하나의 능동수신완충기를 가진다. 
한 과제로부터 다른 과제에로 자료를 보내기 위해서는 원천과제가 먼저 자료를 능동인 
송신완충기에 통보문으로서 묶어야 하며 다음에 목적과제의 능동수신완충기에 보내기 위 
한 서 고함수를 호출하여 야 한다. 


int bufid = pvm_initsend( int encoding ) 

int info = pvm_pkint(int *p, int nitem, int stride) 

int info = pvm_send(int tid, int tag) 

int info = pvm jncast(int *tids, int ntasks, int tag) 

int bufid = pvm_recv(int tid，int tag) 

int bufid = pvm_nrecv(int tid, int tag) 

int bufid = pvm_trecv(int tid, int tag, struct timeval *tmout) 

int bufid = pvm_probe(int tid, int tag) 

int bufid = pvm_bufmfo(int bufid, int *bytes, int *tag, int *tid) 

int info = pvm_upkint(int *p, int nitem, int stride) 

그림 13-9. PVM 통신기술의 표본 

목적 과제 는 능동수신완충기 에 통보문을 받기 위한 수신함수를 실 행하여 다음통보문 
을 엄 으려 는 자료로 풀어 놓아야 한다. 송수신함수는 늘 능동인 완충기 들을 리용한다는 
것 을 강조하므로 임의의 통보문완충기를 지정하지 않는다. 이것 이 MPI 와 다른 점 이 다. 

함수 PVMjnitsend 는 새 로운 송신완충기 를 생 성 하며 그것 을 현재 의 능동완충기 로 만 
들어 준다. 소 > ig 파라메 터 에 서 는 자료를 통보문으로 묶는데 리 용될 수 있는 자료형 을 
지 정하며 그것 은 아래 의 PVM 상수들중의 하나일 수 있 다. 

• DVmData Default 는 자료가 XDR (외 부자료재 현)형 에 의 해 부호화된 다는것을 지 적 
하며 그 형은 서로 다른 자료형을 리용하는 다른 종류의 마디들사이에서 자료교 
환에 리 용되 는 가동환경 독립 형 이 다. 
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• PvmDataRaw 는 행 자료가 어 떤 부호화도 되 지 않고 리 용된 다는것 을 의 미 한다. 
이것은 동종마디사이 통신에 적 당하며 부호화의 무익성 을 회 피할수 있다. 

• PvmDatalnPlace 는 보다 무효성 을 줄일 수 있 는 세 번째 방식 을 의 미 한다. 그것 은 
실제 자료가 능동완충기에 복사되지 않고 단지 자료의 주소와 길이만이 복사되 
는것 이 다. 

자료의 실제 적 인 묶기 는 어 떤 PVM 함수 Pvmpk 와 우의 자료형 의 하나에 의해 진행 된 
다. 실례로 100개 원소로 된 옹근수들 A (즉 A [이， A [2], …， A [98]) 의 매 첨수화된 요소를 
능동송신완충기 에 보장할 때 우리는 Pvm - Pkint ( A , 50, 2) 이 라는 PVM 함수에 접근할수 있 
는 데 여기서 A 는 자료의 주소，50은 자료원소의 개수，2는 걸음이다. 

다른 실례 로 우리 는 류점수형 의 자료를 묶는데 Pvmpkfloal (…)를 리용할수 있다. PV < 
은 또한 서 로 다른 형의 요소들을 포함하는 자료를 묶는 PVM-Packf (…)라는 함수로 제 
공한다. Pvm - send ( tid , tag ) 함수는 능동송신완충기 의 통보문을 tid 에 의 해 지적 되 는 과제 에 
로 보내 려고 통보선을 tag 로서 꼬리 붙인다. 

여 러 과제 에 통보문을 동시 발송(방송)하기 위 한 함수 Pvm - mcast ( tids , ntasks , tag ) 는 
파제 의 계 속이 다. 함수 Pvm-recv 와 PvmTirec 는 각각 수신차단 및 수신비 차단체 계 이 다. 
tid 와 tag 는 둘 다 임의의 과제나 임의의 꼬리를 가리키는 -1 이라는 총칭값을 가질수 있다. 

실 례 13.15. 실 례 12. 1 의 7 C 계 산을 위한 PVM 프로그람 

그림 13- 10에 7 T 계 산을 위 한 PVM 프로그람을 보여 주었 다. 이 SPMD 프로그람은 [0, 
1] 구간을 N 개 령역 으로 나누고 «개 과제 를 리용한다. 매 과제 는 N/n 령역 으로부터 부분합 
mtpi 를 계 산하기 위한것 이 다. n 부분합은 다음 감소연산에 의해 최 종합으로 합쳐 진 다. 원 
천코드는 Pic 파일에 포함된다고 하자. 실행가능파일 아는 아래의 명령을 리용하여 얻을수 
있 다. 


cc 一!/ PVM 3 /include pic livgpvm 3. alibpvm 3. alibpvm 3. a - opi 

사용자는 첫 과제 를 기 동하며 그것 은 n-l 개 과제 로 새끼친다. 매 과제 는 처 음에 는 

명령 


me-pvmJoingroupi “ PI ” ); 


을 실 행한다. 

그러면 이것은 

pvm _ initsend ( PvmDsitdRsiw ) ; 
pvm 

pvm _ mcast ( tids , n ~ l 9 5); 


을 실행한 자료에 의하여 자식과제에 대한 이 값들을 방출한다. 
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을 실행하여 동기를 맞춘다. 

다음의 행들은 바로 표준계산이 다. 


h =1.0/( double ) N ; 



다음의 reduction 연산은 

pvm _ reduce ( PvmSum ，& mypi ， l ， PVM _ COUBLE ，6，” PI ” ,0); 

그룹 PI 의 모든 과제 의 감소합을 의 미한다. 매 과제 는 myp / 위 치 에 PVM - DouBLE 형 의 
한 자료항목을 부여 한다. 

최종결과는 초기과제(위수가 0인)의 mypi 에 기억되게 된다. 

값 6은 또한 독자적 인 통보문꼬리 표이다. 

보통 PVM 감소는 다음의 함수원천을 가진다. 

pvm _ rerfMc ^( void (* func )(), void * buffer,int nitem,int datatype,int tag , char * group,int root ); 
결과를 인쇄한후 프로그람은 
pvm _ lvgroup ( “ PI ” ) Midpvm _ exit () 


에 접근함으로써 지워 진다. 

13.4. 참고문헌주해와 련습문제 

많은 통보문넘 기 기 쏘프트웨 어 묶음을 포함하는 Cluster - Supporting 쏘프트웨 어 에 대 한 
포괄적 인 개 괄을 [62 이에 서 주었 다. 이 런 쏘프트웨어 는 1993년까지 리용되 였 다. 대 표적 인 
통보문넘기기의 심오한 론의에 대하여서는 문헌 [118, 303, 372, 502, 574] 에서 찾아 볼 
수 있다. 

개 발된 모둘 및 확정병 렬프로그람 그리 고 포트란 + M 수법 들은 문헌 [141,24 刀에 서 
론의 하였 다. 

PVM 과 관련 한 좋은 참고서 로서 는 문헌 [261] 과 Sanderram 의 론문 [59 刀들을 소개 할 
수 있다. 
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문헌 [375] 에서는 PVM 이 얼마나 효과적 으로 실행 되는가를 론의하였다. MPI 에 대 한 
심오한 론의는 문헌 [283] 과 [575] 에서 주었다. 

문헌 [112] 와 [394] 들은 MPI 의 두가지 효과적 인 실현실례를 주었다. 문헌 [322] 와 
[65 到에서 저자들은 MPP 에서 MPI 성능에 대하여 체계적으로 서술하였다. 

최신정보와 완벽한 참고자료들은 Web 자원목록의 PYM , MPI 홈페지에서 찾아 볼수 있다. 

문 제 

문제 13. 1. 아래의 MPI 용어를 고찰하도록(실례 13.9 에서) 첫 MPI - Send 명령문을 간단 
히 정 의 하고 리용하시 오. 

(1) 통보문완충기 

(2) 통보문봉투 

(3) 통보문문맥 

문제 13. 2. 실례 13.4 참고. 

다음의 매 코드가 실행된후 프로쎄스 2에서의 A [ l ] 와 B [이의 값은 얼마인가? 

(1) MPI _ Alltoall ( A , 1 , MPI _ INT , B , 1 , MPI _ INT , comm ) ; 

(2) if ( my _ rank ==0) { 

MPI_B cast ( A ,3， MPI _ INT ， root ， comm ); 

MPI _ Send ( B ，3， MPI _ INT ，2， tag ， coinm ); 

}else if ( my _ rank == l ){ 

MPI _ Send ( B ,3, MPI _ INT ,2, tag , coinm ); 

MPI_B cast ( A ，3， MPI _ INT ， root ， comm ); 

}else{ 

MPI _ Recv ( B ，3， MPI _ INT ， MPI _ ANY _ SOURCE ， tag ， comm ); 

MPI_B cast ( A ，3， MPI _ INT ， root ， comm ); 
MPI _ Recv ( B ,3, MPI _ INT , MPI _ ANY _ SOURCE , tag , coimn ); 

} 

(3) if ( my _ rank ==0){ 

MPI 一 Send ( A ，3， MPI _ INT ， l ， tag ， comm ); 

MPI 一 Rec v ( B ，3， MPI _ INT ，2， tag ， comin ); 

}else if ( my _ rank == l ){ 

MPI _ Send ( A ,3, MPI _ INT ,2, tag , coimn ); 

MPI_Rec v ( B ，3， MPI _ INT ，0， tag ， comm ); 

}else{ 

MPI _ Isend ( A ，3， MPI _ INT ，0， tag ， comm ); 

MPI _ Recv ( B ，3， MPI _ INT ， l ， tag ， comm ); 
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(4) if ( my _ rank ==0) { 



MPI _ Isend ( A ，3， MPI _ INT ， l ， tag ， coinm ); 

MPI _ Recv ( B ，3， MPI _ INT ，2， tag ， comm ); 

}else if ( my _ rank == 1) { 

MPI 一 Isend ( B ，3， MPI _ INT ，2， tag ， comm ); 

MPI _ Recv ( B ，3， MPI _ INT ，0， tag ， comm ); 

}else{ 

MPI _ Send ( B ，3， MPI 一 INT ，0， tag ， comm ); 

MPI _ Recv ( B ，3， MPI _ INT ， l ， tag ， comm ); 

} 

문제 13. 3. 7.2.1 에 서 은행문제 를 풀기 위한 MPI 프로그람을 작성 하시 오. 특히 출금 
(저금찾기) 및 예금거래를 허용하는 한개의 회계만 있다고 가정한다. 

프로그람은 은행가과제와 두 주문자과제를 포함하고 있다. 은행가는 회계를 관리하 
며 매 주문자는 출금이나 예금거래를 초기화한다. 

(1) 은행 가와 주문자코드를 둘 다 쓰시오. 

(2) 프로그람이 교착되지 않는가를 보시오. 

(3) 프로그람이 어떤 주문자도 빈곤하지 않게 하는가를 보시오. 

프로그람이 빈곤의 자유도를 보장할수 없다면 그 프로그람의 빈곤이 없게 될 필요충 
분조건을 만드시오 

(4) 프로그람이 정확한 결과를 발생하는가를 보시오. 실례로 주문자가 출납으로 
부터 100$를 출금하려 할 때 은행 가가 그 출납에서 100$를 덜고 그만한 량을 
주문자에게 출금한다. 프로그람은 다른 손님이 그에게 거래를 요구할 때도 
혼란되지 말아야 한다. 

문제 13. 4. 야꼬비완화문제 (실 례 12. 4) 를 위한 완성 된(실 행 준비 전) 병 렬 프로그람을 작 
성 하기 위 한 MPI 를 리용한다. 골조코드는 그림 13- 11에 보여 주었다. 

독자들은 아래 의 과제 를 수행하여 야 한다. 

(1) 잘 문서 화되 고 완성 된 순차 및 병 렬 프로그람을 작성한다. 

(2) 왜 변수나 명령문이 거기에 포함되는가를 코드의 형태로 론의하시오. 

(3) 코드가 교착되지 않을것 이 라는것을 증명 하시오. 

(4) MPI 병 렬프로그람을 작성할 때 의 뢰할수 없는것 을 설명하면서 코드화의 명 백 
성 을 요구하시 오. 


이 련습문제로부터 구체적인 실례를 주어야 한다. 
그렇게 할수 없으면 반대로 제시하시오. 
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float Arow[N] ， X[N], NewX, B, error, Temp ; 

MPI_Comm comm ; 
error = SomeLargeValue ; 
initialize A , X , and 公 
MPI Init (&argc, &argv); 
comm = MPI_COMM_WORLD ; 

MPI_Comm_rank (comm, & my rank) ; 
while ( error > SomeErrorBound ) { 

Temp = B; 

for (i=0; i<N; i++) Temp -= Arow[i] * X[i]; 

Temp h A[my_rank] ; 

NewX = Temp + X[my_rank] ; 

MPI_Allgather (&NewX, 1, MPI_FLOAT, &X, l,MPI_FLOAT, comm) ; 
Temp = Temp * Temp ; 

MPI Allreduce (&Temp, &error, 1, MPI FLOAT, MPI_SUM, comm); 


그림 13-11. MPI 코드에 서 야꼬비완화 


문제 13.5. PVM 을 리 용하여 문제 13. 4를 반복하시 오. 대 응하는 MPI 와 PVM 코드사 
이 에서 프로그람작성능력 과 쏘프트웨 어생 산성 에 대 하여 평 가하시 오. 

문제 13.6. 2개 의 문제 크기 : N = 100000과 N =10000000 을 가지 는 계 산을 위 한 MPI 로 
SPMD 프로그람을 작성하시오. 

임의의 병렬콤퓨터로 코드를 개발하고 검사하시오. 프로그람은 1, 2, 3, 4, 5, 6, 7, 8 
개 처 리 기를 리용하여 최적화되 고 실현될수 있다. 이 련습의 서술은 다음을 포함한다. 

(1) 완성되고 잘 문서화된 순차 및 병렬프로그람 

(2) 가동환경，언어，콤파일 러 선택，서 고들, 환경파라메터，실행방식 (묶음/호상작 
용，바치다/공유)을 포함하여 실험환경과 수속의 표시에 걸리는 시간 

(3) 순차실행시 간，병 렬유한시 간，속도 ( mflop / s )， 속도개 선，효률, 편리 성 을 포함하 
여 표화되고 계획화된 성능측정값 

(4) 측정결과에 대한 해석. 기계크기와 문제크기를 초월하여 편리성과 규모변경 
성의 관측과 설명에 주의를 돌리시오. 

문제 13.7. 문제 13.6 을 PVM 을 리 용하여 반복하시오. MPI 와 PVM 코드사이 프로그람 
작성 능력 과 쏘프트웨 어 생 산성 에 대 하여 평 가하시 오. 

문제 13.8. 실 례 12.2 의 목표발견문제 를 위한 완성 된(실 행 준비 된) 병 렬 프로그람을 쓰 
기 위하여 MPI 사항을 리용한다. 골조코드는 그림 13-12 에 제 시하였 다. 다음의 과제 를 수 
행해 야 한다. 
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(1) MPI 코드를 가지고 완성되고 잘 문서화된 병렬프로그람을 작성하시오. 

(2) 변수나 명령이 거기에 왜 있어야 하는가를 비롯하여 코드의 론리적단계를 설 
명 하시 오. 

(3) 어떤 조건하에서 코드가 교착되지 않게 되는가를 보시오. 

(4) MPI 에서의 병렬프로그람작성에서 무엇이 좋고 무엇이 좋지 않는가를 설명함 
으로써 코드화경험을 개괄하시오. 이 련습에서 구체적인 실례를 준다. MPI 의 
리용에서 좋지 않은 점 들이 있기 때 문에 그에 해 당한 대 응책 을 제 안하고 그것 
을 설명하시오. 



그림 13-12. MPI 를 리용하기 위 한 목표발견코드 


문제 13.9. 문제 13.8 을 PVM 을 리용하여 반복하시 오. 같은 MPI 와 PVM 코드사이 에 서 
프로그람작성 능력 과 쏘프트웨 어 생 산성 을 설 명 하시 오. 

문제 13.10. MPI 와 PVM 의 상대 적 인 우점 과 결점 을 보여 주는 큰 표를 편집하시 오. 
표는 중요한 통신함수를 초월하여 성능특징도 정통할수 있어 야 한다. 

표항목을 추리하여 론증하시 오. 그에 대 한 연구는 고준위 로부터 저 준위 까지 를 포함 
하여 여러가지 응용프로그람준위를 취급하게 될것이다. 

전용프로그람에 해당한 문제 13.4 로부터 13.9 에서 엄은 프로그람비교결과들은 표에 
있는 일 반항목으로서 의 공통속성 들을 분류하도록 일 반화할수 있 다. 
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제 1 4장. 자료병렬프로그람작성 


이 장에 서 는 사용자응용프로그람에 서 자료병 렬 사용문제 를 취 급한다. 

우리는 여 기서 두가지 자료병 렬프로그람작성 언어 인 Fortran 96과 고성능 Fortran ( HPF ) 
을 구체 적 으로 론의한다. 이 프로그람작성환경 은 수년 간에 거 처 병 렬 Fortran 계 산공통체 에 
의하여 연구개 발된 결 과이 다. 

Fortran 95 ， Fortran 20()1 과 HPF 2 와 같은 확장된 Fortran 과 관련한 몇 가지 내용들을 
론의 한다 . 


1 4. 1 . 자료병렬모형 

자료병 렬프로그람작성 모형 은 여 러 가지 로 특징 을 고찰할수 있 다. 

그중 일부는 공유변수와 통보문넘기기모형이 서로 다르다. 

아래에서 그 차이점을 보자. 

• 단일스레드화 

프로그람작성 자의 관점 에 서 자료병 렬 프로그람은 조종의 단일 스레 드를 가지 는 하나의 
프로쎄스로 실행된다. 

• 집합적자료구조우에서 병렬조작 

자료병렬프로그람의 단일걸음은 한 배렬의 서로 다른 요소들에 동일하게 적용되며 
다중조작을 실행할수 있다. 

• 성긴동기화 

이것은 모든 명령문이후의 암시적동기화이다. 

이 명 령 문준위 동기 화는 SIMD 체 계 에서 고도로 동기화된것 에 비 할 때 분산적 이다. 

• 전역적 인 이 름공간 

모든 변수들은 유일한 주소공간에 존재한다. 모든 명령문들은 임의의 변수，대상을 
접근할수 있다. 

이것은 통보문통신과 상반된다. 여기에는 서로 다른 주소공간들의 변수가 있을수 
있 다. 


• 암시 적 호상작용 

암시 적장벽 이 있으므로 자료병 렬프로그람에서는 명시적표기화가 필요없다. 


• 암시 적 자료확장 

프로그람작성 자는 자료를 배정 하기 위하여 어 떻게 하여 야 하는가를 명백 히 밝힐 필 
요가 없다. 
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1 4. 2. Fortran 90 방법 

인기 있는 자료병 렬언어 인 Fortran 77 을 많이 개선한것 이 Fortran 90 이 다. 우리 는 병 
렬성을 지원하는 두가지 중요특징들만을 론의하기로 한다. 즉 병렬배렬조작，배렬함수. 

Intrinsic 조작 

모든 언어는 몇가지 Inttinsic 연산(즉 +，_，*，八과 함수(즉 sin, log) 를 가진다. 이것들 
숏 언어의 일부로 간주한다. 따라서 언어를 임의로 실행할 때 같은 의미들을 가지고 그 
것 을 지원하여 야 한다. 콤파일 러는 사용자에 의한 정의와 규정 을 더 진행하지 않고도 함 
수의 문법과 의미론을 알아 차린다. 반면에 Intrinsic 함수를 일부 체계에 의하여 실행시 
킬 수 있 으나 다른 체 계 들에 서 는 실 행 시 킬 수 없 다. Intrinsic 함수는 서 로 다른 실 행 에 서 서 
로 다른 문법과 의미론을 가질수 있다. 

실례로 C 에서 print() 함수는 그것이 모든 체계들에서 갈은 문법과 의미론을 가지고 실 
행 되므로 Intrinsic 로 간주한다. 그러 나 FFT 에 대 하여 C 함수들은 Intrinsic 이 다. 

1 4. 2. 1 . 병렬배렬조작 

프로그람언어 에서 의 과학계산에 대 한 강력한 지 원을 하기 위하여 새 로운 Fortran 90 
표준은 프로그람언 어 의 배 렬능력 을 현저하게 확장하였 다 . 

전체배렬，배렬의 일부(배렬구역이라고도 한다.)가 조작대상으로 된다. 


배렬 구역 

모든 Intrinsic 함수들은 기 본요소와 같이 동작하면서 전체배 렬 혹은 배 렬 구역 에 적 용 
될 수 있 다. 또한 Intrinsic 함수를 통하여 기 본요소가 아닌 병 렬 배 렬 조작을 수행 할수 있 
다. 이것은 14.2.2 절에서 론의하였 다. 

실례 14.1. Fortran 90프로그람에서 배 렬조종 

다음과 같은 Fortran 90 코드부분을 고찰하자 

real , dimension (3,3 )::A 
real , dimension (2,2):: B，C 

SI: c=o 

S 2: B = A (1:3:2,2:3) 

S 3: where (( B -6)>0) C = sin ( A ( 1:2,1:2)) 


주어 진 배 렬 A 에 대 하여 우의 코드의 결과는 다음과 같다. 
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A = 


"1 2 3" 
4 5 6 
7 8 9 



0 " 
-0.9589 


(14.1) 


해석 

자료병 렬프로그람작성형식의 4가지 특성 은 다음과 같은 실례코드를 가지 고 실험할수 
있다. 즉 


• 단일스레드화와 성긴 동기화 코드는 련이어(차례로) 만일 스레드들이 실행되는 3 
개의 명 령 SI , S 2, S 3 으로 구성되 여 있다. 명 령 S 2( S 3) 은 S 1( S 2) 의 모든 조작이 
끝날 때까지 시 작하지 않는다. 

• 병렬배렬조작 명령은 동시에 실행되는 배렬요소애서의 X 연산을 포함할수 있 
다. 명 령 S 1 은 배 렬 C 의 4개 요소 모두에 0을 배 정한다. 명 령 S 2 은 배 렬 A 의 4 
개 요소들을 배 렬 B 에 배 정한다. Where 명 령 S 3 은 조건식 ( B _6)>0 에 따라 배 렬 
C 를 배 정한다. 조건이 진실 인 C 의 요소만이 수행된다. C 의 첫행의 두 원소는 
불변이다. 왜냐하면 조건이 거짓이기때문이다. 

• 전역 적이 름공간 모든 배 렬변수와 요소들은 모든 명 령 문들에 서 보인 다. 프로쎄 스 
전용자료의 개념은 없다. 


배렬 

배렬의 차원수를 형래위수 ( rank ) 라고 부론다. 실례 14.1 에서 변수 A , B , C 들은 모두 
위 수 2인 배 렬 들이다. 

배 렬 구역 은 매 배 렬 차원 에 대 하여 3원쌍 ( three - tuple ) L : U : S(subscript ttiplet 라고 한 
다.)는 배렬 A 의 첫행，둘째 행과 셋째 행에 의하여 형성된 배렬구역이다. 

명 령문에 여 러개의 배 렬 또는 배 렬구역 이 나타날 때 에는 그것들은 적 합하여 야 한 
다. 실례로 배렬더하기 x + y 에서 두 배렬은 같은 형태를 가져야 한다. 

즉 그것들은 매 차원에서 같은 크기(즉 요소들의 개수)로 되여야 한다. 이와 같이 
두 2 X 3 배렬들은 같은 형태를 가지지만 2 X 3 배렬은 3 X 2 배렬과 같은 형태를 가지지 않 
는다. 조작자가 스칼라 s 와 배렬 곳에 적용될 때 스칼라 s 는 우선 모든 원소들이 s 인 X 
와 같은 형태의 배렬로 확장된다. 이것을 실례 14.1 에서 볼수 있다. 여기서 B -6 은 다음 
과 같은 방법으로 계산한다. 
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14. 2. 2. Fortran 90 에서 Intrinsic 함수 


이상에서 언급한 기본요소와 같은 배 렬조작외 에도 Fortran 90은 배 렬들을 전체적 으로 
조종하는 추가적 인 Intrinsic 함수를 제 공한다. 우리 는 아래 에 서 그 몇 가지 를 론의한다. 

행렬연산 

Fortran 90은 전체 배 렬에 대 하여 동작하는 여 러 개의 조작자들을 제 공한다. 

실례로 행렬 표는 transpose ( X ) 를 호출하여 변환할수 있다. 

한편 곱하기 함수 matmul 은 mx « 형배렬 표를 mx ；7 형배렬 Y 와 곱하여 mXp 형배렬 
로 귀환한다. 

실례로 명 령문 Z = ， 7) 이 다. 여기서 고는 mx ；? 형배렬이여 야 한다. 

배렬 구성 

위수 1인 배렬은 반점으로 분리되고 “(/” 와 ( and )” 八” 에 의하여 닫긴 값들의 렬 
인 배렬구성체를 통하여 형성될수 있다. 실례로 3차원벡토르 표는 값지정명령문 
Z =(/ l ,3,5/) (또는 갈은것 이지 만 Z =(/ l :5:2/)) 에 의하여 구성할수 있 다. 배 럴을 생 성 
하는 또 다른 방법은 여분의 차원을 추가하고 연산대상을 복사하는 방법으로 새로운 배 
렬 을 구성하는 Intrinsic 함수 확장을 리용하는것 이 다. 

실례로 함수 spread ((/1.3.5/)，1.3) 은 (/1.3.5/)를 3개복사하여 그것들을 1차원을 따라 확 
장한다. 함수 spread ((11.3.51)，2,2) 로 (11.3.51) 를 2개 복사하여 2차원으로 그것들을 확장한 
다. 그 결과들은 아래와 같다. 


spread ((/ l ,3,5/), l ,3)= 1 3 5, spread ((/ l ,3,5/),2,)= 3 3 (14.3) 







벡토르감소 

Fortran 90 은 표 14_1 에 목록화한것과 같이 여러개의 Intrinsic 함수들을 지원한다. 

여기서 독립 변수 DIM 과 MAK 들은 선택적 이 다. 

우리는 아래에서 여러개의 실례들을 리용하여 이 함수들을 어떻게 리용하는가를 설 
명한다 . 함수형 태 는 


에 2 5 6] ThenSUM ( A ).21, MACVAL ⑷=6, and COUNT ( A ).6 


와 같다. 

독립변수 DIM 은 주어 진 차원을 따라 감소를 속박하는데 리용된다. 

독립 변수 MASK 는 MASK 에 의 하여 설정 되는 조건이 진실 인 그 원소들에 대 한 감소 
를 속박한다. 

A 가 렬을 따라 합이 감소되므로 COUNT ( A ， A >2) 이 다. 2보다 더 큰 원소들이 4개 이 
므 로 5 보 다 더 작 은 최 대 원 소 의 위 치 가 렬 ( colum ) 1，행 ( row ) 2 이 므 로 
MAXLOC ( A ， A <5)=(2 1) 이다. 

배렬의 적합성은 병렬 Intrinsic 함수들이 리용될 때 서로 다른 의미를 가진다. 실 
례로 두 행렬이 Intrinsic 함수 Z = MALMUL ( X ，7) 를 리 용하여 곱해 질 때 적합성은 표의 
두번째 차원 이 7의 첫번째 차원과 같은 크기 를 가져 야 한다는것 을 의 미한다. 

따라서 보가 2 x 3 배렬이고 7가 3 x 2 배렬이면 표와 r 는 적합하다. 둘다 배렬이면 그것 
들은 적합하지 못하다. 

계속하여 우리는 두 실례를 통하여 Fortran 90이 규칙적으로 구조화된 병렬계산응용 
프로그람에 대한 단순하면서도 깨끗한 프로그람들을 작성하기 쉽게 해준다는것을 알수 
있 다. 

Fortran 90으로 프로그람을 작성 하는 프로그람작성 자는 를파일 러 에 모든것 을 맡겨 버 
림으로써 프로쎄스관리，통신，자료배치，동기화항목에 대하여 걱정 할 필요가 없다. 
Fortran 90은 Fortran 77보다 더 많은 특징들과 기 능들을 제 공해 준다. 일부 응용프로그람 
들에 대하여 Fortran 90프로그람은 대응하는 Fortran 77코드들보다 단순할수 있다. 

실 례 14.2. 야꼬비완화에 대 한 Fortran 90프로그람 

야꼬비완화문제 에 대 한 Fortran 90프로그람을 그림 14_1에 제 시하였 다. 

기 본계산은 do while 순환고리 에 포함된다. 

순환고리의 순차적 이라는 본질은 순환걸음이 하나씩 실행된다는데 있다. 병 렬계산은 
매 순환안에서 진행될수 있다. Fortran 90의 배렬능력으로 하여 다만 세개의 명령문만이 
요구된 다. 명 령 문표시 SI , S 2, S 3 들은 코드 부분이 아니 라는것 을 주의해 준다. 그것 들은 
코드를 론의하는데 리 용된 다. 

우리는 다음과 갈은 몇가지를 관찰할수 있다. 

• 코드는 간단하고 간결하며 알고리듬과 밀착되여 있다. 

• Intrinsic 연산자 SUM , MATMUL 들을 리 용하여 코드화를 단순하게 한다. 


670 




parameter n = 10^4 
real A(n,n), x(n), b(n), error, Temp(n), DiagA(n) 

integer i 

error = SomeLarge Value 
initialize A r x t and b 
doi = l,n 

DiagA(i 戶 A(i ， i) 

end do 

do while ( error > ErrorBound) 

S1 : Temp = (b-MATMUL( A ， x)) / DiagA 

S2: x - Temp + x 

S3 : error = SUM ( Temp * Temp ) 

end do 


그림 14-1. Fortran 90 에 서 야꼬비 완화문제 

실례로 그림 14-1 의 Fortran 90의 코드는 A 의 대각선원소들- 
:환고리를 요구한다. 

실례 14.3. Fortran 90 으로 작성된 가우스소거 법 

가우스소거 법을 위한 Fortran 90의 코드를 그림 14_2에 제시등 


real A(n ， n+1) ， x(n) 
integer i ， pivot_location(l) 
do i= 1, n-1 
! pivoting 

pivot 一 location = MAXLOC( ABS( A(i : n ， i) )) 
swap( A(i, i:n+l) ， A(i-1 +pivot_location( 1), i : n+1)) 

! triangularization 

A(i, i:n+l) = A(i, i:n+l) / A(i ， i) 

A(i+l:n, i-H:n+l) = A(i+l:n,i+l:n+l) - & 
SPREAD(A(i ， i+l:n+l) ， 1 ， n-i) * SPREAD(A(i+l:n，i 
end do 


! back substitution 






코드는 두개 의 do 순환고리 로 이 루어 져 있다. 

첫 순환고리는 대각선화를 실현하며 둘째 순환고리는 거끌치환을 실현한다. 

Fortran 90 에 의 한 가우스소거 법 에서 첫 순환고리의 매 순환 /에서 원소 “Pivot” 의 
위치가 처음에는 큰 절대값을 가지고 얻어 진다. 

교체 부분루린은 Pivot 행을 현재행 /와 교체된다. 다음으로 /째 행아래의 /째 렬의 모 
든 A 의 원소들이 모두 령으로 된다. 

14.3. 고성능 Fortran 

고성 능 Fortran(HPF) 은 다음과 같은 목적 을 달성 하기 위 하여 Fortran 90 을 확장하여 
설계한 표준화된 언어 이 다 [370, 419]. 

• 자료병렬프로그람작성 

• 비단일 기억접근비용을 가진 MIMD 와 SIMD 우에서의 성능을 높이는것 

• 여러가지 구성방식을 위한 코드조종능력 

첫째 목적 을 달성 하기 위 하여 HDF 는 FORALL 구성체 , INDEPENDENT 명 령，일부 추 
가적 Intrinsic 함수들을 도입하였 다. 

이 새 로운 언어 특징 들은 HPF 가 Fortran 90 보다 더 일 반적 은 배 렬구역 들과 병 렬 계산 
패런들을 밝히는데서 유연하게 한다. 

둘째 목적 을 달성 하기 위 하여 HPF 는 ALIGN 과 DISTIBUTE 와 같은 명 령 들을 제 공 
한다. 

이 명령들은 사용자가 콤파일러에 프로쎄스들사이에 자료가 어떻게 배치되여야 하는 
가를 지 적하여 통신무효시 간을 최 소화하고 작업 량이 고르롭게 분배 되 도록 한다. 

HPF 는 또한 사용자가 특수한 구성 방식적 인 낮은 준위환경 을 리용하게 하는 
EXTFONSIC 수속과 같은 세번째 목적 달성 을 지 향한 특징 들을 가진 다. 

이 절에서 우리는 가장 중요한 첫 두가지 목적과 관련한 HPF 의 특징들을 론의한다. 

우리 는 기 본적 인 개 념 을 달성 하기 위 하여 몇 가지 간단한 실 례 를 들기 로 한다. 

14. 3. 1 . 자료병렬성들 우 I 한 지원 

HPF 는 사용자가 자료병 렬 성 을 규정 하기 위한 4 가지 메하니 즘을 지 원 한다. 그것 들은 
배 렬 표현식 과 값지 정 명 령 문，배 렬 Intrinsic 함수， FORALL 명 령 문， INDEPENDENT 명 령 이 
다. 이 것 들중에 서 첫 두개 는 이 미 Fortran 90 에 서 리용하고 있 으며 HPF 는 더 많은 
Intrinsic 를 추가한다. FORALL 과 INDEPENDENT 는 새 로운 특징 들이 다. 


FORALL 구성 체 

HPF 의 FORALL 명 령 문의 Fortran 90 의 배 렬 값지 정명 령 문과 류사하나 더 유연하다. 
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다음 실례코드를 고찰하자. 

FORALL ( i =2.5， X ( i )>0) X ( i )= X ( i - l )+ X ( i + l ) 

“1=2.5” 부분을 HPF 에 서 호랄 트리 플리트 스페크 (/braZZ triplet spec ) 라고 부론다. 

여 기서 오는 첨수변수이 다. 

subscript 仕 iplet 2:5는 아래 한계 2, 웃한계 5, 그리 고 1의 default stride 인 2:5:1파 등가 
이 다. foral triplet spec 는 유효첨 수값모임 {2,3,4,5}를 결정한다. 

X ( i )>0 부분은 스칼라값을 가지 는 표현식 이 며 mask 라고 부론다. 능동첨수값모임 은 
mask 가 진실인 그런 유효첨수값들의 부분모임이다. 

처음에 FORALL 명 령문에서 X =[ l , -1, 2, -2, 3, _3]이 라고 가정 하자. 

그러면 X (2)=- l <0 이고 X (4)=-2<0 이므로 능동모임은 {3,5} 이 다. 

능동함수값모임이 결정된 다음에 값지정명령문이 모든 표현식들은 모든 능동첨수값 
3, 5에 대하여 임의의 순서로 동시에 계산된다. 


X (3- l )+ X (3+ l)evaluates to _ l +(-2)=-3 
X (5- l )+ X (5+ l)evaluates to -2+(-3)=_5 


그러 면 모든 능동첨수값 (3 과 5) 에 대 하여 왼쪽배 렬 요소들은 대 응하는 오른쪽값들로 
동시에 값이 배렬된다. 

왼쪽배렬의 나머지 요소들은 불변이다. 

따라서 우의 FORALL 이 실행된 후에 배렬 표의 결과는 X [ l , -1, 3, ~2, ~5, _3]이다. 
FIORALL 명 령문에서는 한개 이상의 forall-triplet spec 들이 있을수 있다. 그러면 함수값 
들이 결합되여 리용된다. 실례로 FORALL 명령문 

FORALL ( i = l :2， j = l :3， Y ( i ， j )>0) Z ( i ， j )= l / Y ( i ， j ) 은 Fortran 90명 령 문 
where ( Y ( 1 :2,1:2)>0) Z (1:2, 1 :3)=1/ Y (1 :2, 1:3) 

과 등가이 다. 

첨수값들의 유효한 결 합모임 은 모임 {(1,1)(1, 2)(1,3)(2,1)(2,2)(2,3)} 이 며 능동결 합모임 
음 Y ( I ， j ) 가 0보다 큰 부분모임 이다. 

많은 병 렬 계 산들은 FORALL 을 리 용하여 쉽 게 규정 할수 있지 만 Fortran 90에 서 는 그 
렇지 못하다. 

FORALL 명 령 문 

FORALL ( I = 1 :4， j = 1 :5， k = 1 :6) X ( I ， j ， k )= k + j_k 

은 다음의 Fortran 90 배 렬 값지 정 명 령 문에 의 하여 동등하게 표현할수 있 다. 즉 


X = SPREAD ( SPREAD ((/1 :4), 2, 5), 3, 6) 
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& + SPREAD(SPREAD((/1 :5), 1, 4), 3, 6) 

& - SPREAD(SPREAD((/1 :6), 1, 4), 2, 5) 

Fortran 90코드가 리 해 하고 효과적 으로 실행 하는데 훨씬 더 어 렵 다는것 을 주의 하시 오. 
또 다른 실례로 간단한 FORALL 명령문 


FORALL(i=l:n)X(i，j(i))=Y(i) 


은 Fortran 90에서 한개의 값지정명령문으로 표현할수 없다. 때때로 사용자는 FORALL 
명령문에서 여러개의 값지정명령문을 가질것을 요구할수 있다. 이것은 다음의 코드로 
서 실 행하는바와 같이 FORALL 구성 체 혹은 다중명 령 문 FORALL 이 라고 부르는 더 일 
반적 인 형 태의 FORALL 명 령 문으로서 수행할수 있다. 


FORALL(i=l:n) 

A(i)=sin(B(i)) 

C(i)=sqrt(A(i)*A(i)) 

D(i)=B(i)+2 

END FORALL 

둘째 값지 정 명 령 문은 첫 값지 정 명 령 문에 서 의 계 산(여 기 서 sin 함수를 n 번 계 산한것 과 
같다)들이 모두 끝난 다음에야 비로소 시작된다. 따라서 둘째값지정명령문에서 리용된 
배렬 A 는 첫 값지정명령문에서 계산된 새로운 값을 가진다. 

류사한 방법 으로 세번째 명 령 문은 그것 이 두번째 값지 정명 령 문에 서 계 산된 배 렬 c 를 
리 용하는것 같지 않지 만 두번째 가 끝난 다음에 야 시 작된 다. (그가 B 의 가명 (EQUIVALENT 
를 거처)이 될수 있다. 

그러 나 배 렬 B 는 두번째 값지 정 명 령 문에 서 계 산된 C 의 새 로운 값을 리용한다. 

우리는 함수와 수속들이 FORALL 명령문에서 접근될수 있다는데 주목한다. 유일한 
요구는 그것들이 순수해야 한다는것 즉 부작용에 무관계해야 한다는것이다. HPF 는 콤파 
일러가 함수 혹은 수속이 순수한가 아닌가를 결정하는데 도움을 주는 언어적인 속박 목 
록을 제공해 준다. 

실례로 이러한 한가지 속박은 어떤 전역변수가 값지정명령문의 왼변에 나타나지 않 
는다는것 이 다. 

독립인 명 령들 

프로그람작성 자는 이 명 령 들을 리용하여 순환고리 에 반복들가운데 서 고리 이행의존성 
이 존재하지 않는다는것 을 콤파일 러 에 선언 한다. 다시 말하여 모든 반복들은 독립 적 으로 
실행될수 있다. 

실 례 14.4. INDEPENDENT 명 령 

다음 코드에서 ^DEPENDENT 명령의 효과는 그림 14_3에서 해설 하였다. 다음의 코 
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드들에서 화살표는 실행순서 , 속박조건을 자리킨다. 

! HPF $ INDEPENDENT ! HPF $ INDEPENDENT 

F 0 RALL ( i = l :2) do i = l ，2 

A ( i )= foo ( B ( i )) A ( i )= foo ( B ( i )) 

C ( D ( i ))= log ( E ( i )) C ( D ( i ))= log ( E ( i )) 

END FORALL end do 

그림 14-3 자)를 고찰하자. 

여 기서 INDEPENDENT 명 령 은 FORALL 명 령 문에 존재 하지 않는다. 성 긴동기 화때 문에 
첫 명 령 문 A ( i ) = / 00 ( S (0) 의 실 례 들은 둘다 두번째 명 령 문 C ( P ( i )) = log (£(0) 의 임 의 의 것 
이 시작되기전에 끝나야 한다. 그러나 FORALL 은 매 명령문의 두 실례가 다 병렬로 실 
행될수 있다는것을 가정한다. 우리 는 두 명 령 문사이의 암시 적장벽 을 시 작해 볼수 있다. 

^ DEPENDENT 명령 이 추가되면 콤파일러는 장벽동기화이 제거될수 있다는것을 알려 
준다. 따라서 우리는 그림 14-3 1_)를 엄는다. 를파일러가 부분루린 foo () 이 순수한지 또 
가명 이 존재 하는지 알수 없으므로 ^ DEPENDENT 명 령 이 도움이 없이 는 이 런 최 량화를 
수행할수 없 다는것 에 주의해 야 한다. 



1) INDEPENDENT 가 없는 FORALL L) INDEPENDENT 가 있는 FORALL 



T) INDEPEMDENT 가 없는 DO 고러 i) INDEPENDENT 가 있는 DO 고러 


그림 14-3. ^DEPENDENT 명령의 도식 
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DO 순환고리(그림 14-3 n ) 는 각이한 순서 에 따르며 2개 의 반복을 순차적 으로 실 행 
한다. 그러나 ^DEPENDENT 명령 이 추가되면 (그림 14_3 근)콤파일러는 그것을 최 량화 
하여 INDEPENDENT 를 가진 FORALL 명령문과 꼭 같이 동작할수 있게 한다. 


1 4. 3. 2. HPF 에서의 자료넘기기 


자료넘기기는 두가지 목적을 달성하려는 프로쎄스들에 대한 자료배치를 의미한다. 
그 두가지 목적이라는것은 다음과 같다. 

• 프로쎄 스들사이 에 통신을 최 소화하는것 . 

• 작업량이 리용가치가 있는 프로쎄스들사이에 평등분포되도록 하는것 

HPF 롬파일 러 는 OWner - compute rule 을 리 용하여 작업 량을 분배 할수 있 다. 즉 자료항 
목과 관련된 계산은 그 자료항목을 가진 프로쎄스로 수행한다. 따라서 자료넘기 기는 간 
접 적 으로 작업 량분포를 결정한다. 

HPF 는 를파일러가 마디들에 자료를 가장 합리적으로 넘기도록 권고할수 있게 프로 
그람작성 자가 리용할수 있는 명 령 들을 제 공한다. 

우리는 HPF 자료넘기기를 설명할수 있는 또 하나의 중요한 명령을 보여 주는 여러가 
지 실례 를 리용한다. 

실 례 14.5 HPF 프로그람토막에 서 자료넘 기 기 HPF 코드부분을 고찰하자 . 

Consider the following HPF code Fragment : 

Integer A (100)， B (100)， C (101 )，I 
! HPF $ ALIGN A ( i ) WITH B ( i _ l ) 

! HPF $ PROCESSOR N (4) 

! HPF $ DISTRIBUTE A ( BLOCK ) ONTO N 
! HPF $ DISTRIBUTE C ( CYCLIC ) ONTO N 
FORALL ( i =2:100) 

A ( i )= A ( i )+ B ( i - l ) 

C ( i )= C ( i - l )+ C ( i )+ C ( i + l ) 

END FORALL 

그림 14-4 에 제시된것 이 바로 우의 코드이 다. 

이 코드에 의하여 자료넘기기가 실현된다. HPF 에서 자료넘기기는 두개의 프로쎄스 
즉 론리적넘기기와 물리적넘기기로 실현된다. 

론리적넘기기는 여러개의 가상마디(추상 처리기)들에 자료를 넘기는 콤파일러명령을 
통하여 사용자가 규정한다. 

물리적넘기기는 실질적인 콤파일러에서 이 가상마디들을 물리적마디(처리기)들에 넘 
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가상적마디는 한개의 물리적마디에만 넘겨 진다. 다시 말하 
된 모든 자료들은 같은 물리적마디들에 넘겨 져야 한다. 론리적 
되는바 그것은 배렬과 분배이다. 

우의 코드와 련관시켜 보면 PROCESSOR 명 령 은 다음과 같厂 

! HPF $ PROCESSOR N (4) 


콤파일러에게 그림 14-4 에 제시된 4개의 가상마디 Nl , N 2, 



HPF 는 가상마디모임의 임의의 직선배 럴로써 정의할수 있도록 한다. 
실례로 콤파일러명령 


! HPF $ PROCESSOR N (4, 5) 

는 20개마디들이 4 x 5 개의 쪼각으로 배렬되도록 하며 명 령 

! HPF $ PROCESSOR N (4, 5, 6) 

은 120개의 마디들을 4*5*6 개의 조각으로 배 렬되도록 한다. 
실례 14.5 는 세 가지 자료배 렬 A , B , C 들을 리용한다. 
한줄배 렬단계 는 다만 하나의 ALIGN 에 서 명 령 


! HPF $ ALIGN A ( i ) WITH B ( I _1) 

만으로 이루어 진다. 

이 명 령은 콤파일 러 에 A ( i ) 와 B ( i - l ) 이 같은 마디 에 넘겨 져야 한다는것을 알려 준 
다. 그러 나 그것 이 어 느 마디인가를 알려 주지 못한다. 

배 치된 자료요소들은 프로쎄 스들사이의 통신을 줄이 기 위하여 같은 프로쎄 스에 기 억 
된다. 

허위변수 /의 령역은 한개의 명 령 으로 제 한된다. 그것은 임의의 변수에 의하여 교체 
될수 있 다. 

배렬 C 가 어떻게 정렬되여야 하는가를 가리키는 명령음 없다는데 주의하여야 
한다. 

결국 이것은 임의의 다른 배렬들로 정렬되지 않는다. 

분배단계 에서 는 프로그람작성 자가 두개의 DISTRBUTE 명 령들을 리용한다. 

! HPF $ DISTRIBUTE A ( BLOCK ) ONTO N 

! HPF$DISTRIBUTE C ( CYCLIC ) ONTO N 

마디배렬에 A 와 B 가 블로크형태로 분포되여야 하며 C 는 주기적인 형태로 분포되여 
야 한다는것을 권고한다. 

첫 DISTRIBUTE 명 령 에 서 는 배 렬 A 만 나타났지 만 표가 A 와 함께 정 렬 되 였 으므로 그 
것 은 배 렬 B 에도 자연히 분포된다. 블로크분포는 배 렬을 여 러개의 련쇄적 인 배 렬요소들 
의 묶음(블로크)으로 나누어 한 블로크를 한개 마디 에 배 치한다. 

주기적인 분포는 고르롭게 나누어 모든 /째 마디에 배치되도록 한다. 

실례로 실례 14.5 에서 배렬요소들은 다음과 같은 방법으로 4개의 마디들에 배치된 
다. 즉 
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N (1): A (1), A (2),- • -, A (25), B (1), B (2),- • % B (24), C (1), C (5), C (9),- • -, C (97), C (101) 

N (2): A (26), A (27),- • -, A (50), B (25), B (26),- • -, B (49), C (2), C (6), C (10),- • -, C (98) 

N (3): A (51), A (52),- • -, A (75), B (50), B (51),-, B (74), C (3), C (7), C (1 !),•• •，(그 (99) 

N (4): A (76), A (77),- • -, A (100), B (75), B (76),- • -, B (99), C (4), C (8), C (12),- • -, C (9100) 

갈은 론리적넘기기를 서로 다른 물리적넘기기에서 리용할수 있다. 

그림 14-4 에 이와 같은 3가지 넘기기를 제시하였다. 

4개 의 가상적 마디 들은 조각위 상기 하학적 구조를 가지 는 Intel peragon 콤퓨터 의 4개 의 
물리 적마디 들에 넘 길수 있 다. 

같은 가상마디들이 다단계 호상련결을 리 용하는 IBM 물리적 마디들에 넘 겨 질수 있다. 

사실상 HPF 코드는 단일 프로쎄 스에 의하여 실행될수 있는바 여 기서 모든 가상마디 
들은 같은 물리 적프로쎄 스에 넘 겨 진다. 

HPF 의 우점 은 변화시키지 않으면서 같은 코드(모든 명 령들과 함께)와 모두 세개의 
콤퓨터 에서 리용될수 있 다는것 이 다. 

매 체계는 자기의 물리적넘기기를 관리한다. 

실례 14.5 의 코드에서 얼마나 많은 통신이 요구되는가를 보자. 

값지정명 령문 A ( i )= A ( i )+ B ( I - l ) 은 A ( i ) 를 B ( i - l ) 과 결합하는 방법으로 어떤 통신도 
요구하지 않는다. 그러 나 값지정명 령문 C ( i )= C ( I _ l )+ C ( i )+ C ( I + l ) 은 주기적 인 분포가 서 
로 다른 마디들에 C ( I - l ), C ( i ), C ( i +1) 들을 배치하므로 두 배렬이 요소들을 통신할것을 
요구한다. 

이것은 총체적으로 약 200개의 요소들이 통신되도록 한다. 

따라서 주기 적 분포는 좋지 못한 선택 이 다. 우리 는 통신을 줄이 기 위하여 블로크분포 
코드를 리용할수 있 다. 


! HPF $ DISTRIBUTE C ( BLOCK ) ONTON 

이때 배렬 C 는 다음과 같이 분포된다. 

Nl : C (1)， C (2)， …， C (26) 

N 2: C (27)， C (28)， …， C (52) 

N 3: C (53)， C (54)， …， C (78) 

N 4: C (79)， C (80)， …， C (101) 

마디 N 4 는 불과 23개요소들만으로 배치된다. 

이제 매 블로크의 경계요소들만을 통신할 필요가 제기된다. 즉 총 6개의 요소 C (26), 
C (27), C (52), C (53), C (78), C (79) 들을 통신하여 야 한다. 

이것은 HPF 의 또 다른 우점을 보여 준다. 즉 실행가능한 명령문이든 선언이든 변화 
시킬 필요가 없다. 

성 능을 개 선하기 위하여 필요한 모든것 이 콤파일 러 명 령 을 변화시키 는것 이 다. 
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실 례 14.6. 가우스소거 법 을 위한 HPF 프로그람 

이 HPF 프로그람은 그림 14-5 에 제 시하였 다 . 

DBTRIBUTE 명 령은 A 의 첫 번째 차원이 블로크에 분포되 여 야 한다는것을 말해 준다. 

A 의 둘째 차원 에 서 * 은 실 패 라는것 을 의 미한다. 

이 것 은 배 렬 토막 A { i ,\ : n ) 이 같은 마디 에 넘 겨 진 다는것 을 의 미 한다. 

4개의 가상마디들이 있으며 n 은 4로 나누어 진다고 가정하자. 그러면 자료분포는 다 
음과 갈다. 즉 


parameter n = 32 
real A(n,n+1), x(n) 
integer i, pivotjocation(l) 

!HPF$ PROCESSOR Nodes{4) 

!HPF$ ALIGN x(i) WITH A(ij) 

!HPF$ DISTRIBUTE A(BLOCK,*) ONTO Nodes 
do i = 1, n-1 


! pivoting 

pivot_location = MAXLOC( ABS( A(i: n, i))) 
swap( A(i, i:n+l), A(i-1 +pivot_location( 1), i : n+1) ) 
! triangularization 


A(i, i:n+l) = A(i, i:n+l)/ A{i,i) 

FORALL (j 미 +1 : n, k = i+1 : n+1 ) A(j, k) = A(j, k) - A(j, i) * A(i, k) 


end do 


! back substitution 


do i = n, 1,-1 
x(i) = A(i, n+1) 

A(l:i-l,n+l) = A(l:i-l,n+l)-A(l:i-l,i)* x(i) 

end do 


그림 14-5. HPF 의 가우스소거 법 
N 1 : A ( l : n /4 ,l : n ), b ( l : n /4), x ( 1 : n ) 

N 2: A ( n /4+ l :2* n /4,1 : n ), b ( n /4 +l :2* n /4), Temp ( n /4 + 1:2* n /4), x(l : n ) 
N 3: A (2* n /4+ l :3* n /4, l : n ), b (2* n /4+ l :3* n /4), Temp (2* n /4+ l :3* n /4), x ( l : n ) 

N 4: A (3* n /4 +l : n , 1 : n ), b (3 * n /4+ l : n ), Temp (3 * n /4 + 1 : n ), x ( l : n ) 

대응하는 자료분포는 표 14-2 에 제시되였다. 

이 분포에서 문제는 부하불균형성 이다. 대각선화단계를 고찰하자. 

8번째 반복이후에 마디 1은 놀고 있으며 16번 반복후에 는 마디 1과 2가 놀고 있 다. 
작업 은 자료가 주기 적분포를 따르도록 함으로써 균형 화되 는바 이것은 련습으로 
남긴 다. 
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표 14-2 4 개의 마디에 따르는 자료분포 


마디 

~ 

A ( l :8, 

l ：33), x ( l :8) 

마디 

2 

A (9:16, l :33) > x (9:16) | 

마디 

3 

A (17:24* 

1:33), x (17:24) 

마디 

4 

A (25:32, 

1:33), x (25:32) 


14. 3. 3. Fortran 90 과 HPF 개괄 

우리 는 아래 에 서 사용자응용프로그람에 서 자료병 렬 을 리용하여 Fortran 90 또는 HPF 
를 리용하는데 서 나서 는 일 련의 실제 적 인 문제 점 들을 요약한다. 

병 렬 문제 

단일스레드로 하여 자료병 렬프로그람에 서는 다중마디 들이 서 로 다른 자료기 지부분상 
에 서 갈은 프로그람을 실 행할수 있지 만 론리적 으로는 프로쎄 스이 다. 대 다수 병 렬 문제 들 
흣 체계 가 관리한다. 사용자는 프로쎄스들을 만들고 없애며 그룹을 형성하는데 대 하여 
걱정할 필요가 없다. 

얼마나 많은 프로쎄스들이 프로그람을 가동시키는가를 알 필요가 없다. 

명령급자료병렬과 그것이 구성되는 개소에서는 동시에 서로 다른 명령들이 수행되도 
록 서로 다른 마디들을 허용해 준다. 

따라서 SMD 와 SPMD 계산이 모두 지원되지만 MPMD 는 지원되지 않는다. 

각이한 배 렬과제 가 사용되거 나 또는 각이한 FORALL 명 령 문이 실행될 때 프로그람 
의 병렬정도는 동적으로 변한다. 

호상작용문제 

약한 동기 로 하여 거 의 모든 호상작용문제 는 자료병 렬프로그람에서 제껴 놓는다. 

Fortran 90과 HPF 에서 호상작용조작은 없다. 

Fortran 90은 소거 기 능지 원，축소기 능지 원 을 위 한 9가지 기 능을 보장하지 만 사건 고 
정，아래로 찾기 또는 추출을 지원하지 못한다. 

이 것은 또한 사용자가 정한 축소조작도 지 원하지 않는다. 

HPF 는 서로 루린을 통하여 Fortran 90의 능력을 확장한다. 여기에는 추가적인 축소기능 
과 입력기능, 찾기기능이 포함된다. 자료병 렬프로그람에서 호상작용은 협력적이다. 

여기에는 하나의 호상작용방식만이 있다. 즉 명령급동기이다. 

한개 명 령 문의 모든 조직 은 다음 명 령 문의 조작이 시 작되 기전에 끝나야 한다. 통신 
은 배렬과제를 통하여 절대적이다. 정상적인 및 비정상적인 통신형식은 아래에서 제시된 
서 로 다른 배 렬점 수들에 의하여 지 정 될수 있다. 

! HPF $ ALIGN A ( i ) WITH B ( i ) 

A ( i )= B ( i - l ) ! 정규적 인 왼쪽이동 

A ( V ( i )) B ( i ) ! 비정 규통신，패 턴은 첨수배렬 V 를 통하여 정의된다. 
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HPF 는 자료위 치를 찾음으로써 통신부가프로쎄스를 최소화하기 위한 배 렬넘기기명 령 
모임을 보장한다. 

가장 중요한 명 령 들은 PROCESSOR , ALIGN , DISTRIBUTE 들이다. 

HPF 는 또한 통신패 런을 변경시 키기 위 한 동적 인 REALIGN 과 REDISTRIBUTE 명 령문 
들을 제공한다. 

이 자료넘 기 기구성 체 는 통신패 런들이 정 규적일 때 보다 효과적 이 다. 

의미론적문제들 

단일스레드화와 속박 없는 동기화로 하여 자료병렬프로그람은 완전히 의미론적 인것 
으로 된다. 

그것은 교착 또는 교체를 가질수 없다. 

다만 순차적 인 프로그람에 서 와 같은 리유로 순환이 끝나지 않은것 으로 인한 비 
완료만이 있을수 있다. Fortran 90과 HPF 자료병렬프로그람은 순차적인 Fortran 90 
프로그람과 구조화，정확성，완전성，결합성문제에서 류사하다. 

여기 에는 병 렬성 에 의하여 초래되는 추가적 인 복잡성 이 없다. 

자료병 렬프로그람은 단일배정규칙 이 만족되 기만 하면 확정적 이 다. 임의의 배 렬요소 
는 명령문에서 자주 대입한다. 단일배정규칙을 만족시키지 못하는 임의의 프로그람은 
Fortran 90 또는 HPF 에서 틀린것 으로 간주한다. 

실례 14.7. 자료병렬성에서 단일배정 


Consider A (5)， I (5)， J (5) 

SI : 1-(/1, 2,3,4, 5/) 

S 2: J =(/ l ，2,2,4,5/) 

S 3: A ( I )= I +2 

S 4: A (2:4)= A (1:3)+ A (3:5) 

S 5: A ( J)=J 

아래의 코드단락(부분)을 HPF 표기로 고찰하자. 

병 렬 I 의 모든 요소가 서 로 다르므로 단일배정은 A =(/3,4,5,6,7/) 를 생성하는 명 령문 
S 3 에 의하여 만족된 다. 

대조적으로 명 령문 S 5 가 A (2) 에 두번 대 입되였다는것을 의미하는 J (2)= J (3) 때문에 틀 
린것으로 된다. 

S 4 가 FORALL ( k =2:4) A ( k )= A ( k _ l )+ A ( k + l ) 와 등가라는데 대 하여 주의 해 야 한다 . 
이것은 순차적순환고리 
do k =2, 4 

A ( k )= A ( k _ l )+ A ( k + l ) 

End do 

와 등가가 아니 다. 

S 4 에서 3개의 오른쪽 표현식 모두가 배 렬 A 의 현재값을 리용하여 임의의 순서 로 평 
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가된 다. A ( l )+ A (3)=3+5 +=8, A (2)+ A (4)=10, A (3)+ A (5)=12 이 다. 

그러 면 이 세개의 값은 다시 임의의 순서 로 A (2) , A (3)， A (5) 에 대 입된다. 그렇지 만 
S 4 후에 A (/3,8，10，12,7/) 이 실행된다. 

프로그람작성능력 

Fortran 90과 HPF 가 고수준언어 표준형 인것 으로 하여 임의의 정 합프로그람은 좋은 이 
식성을 가진다. 대부분의 병렬성，대화성, 의미론적문제점이 체계에 의하여 실현되는것 
과 그 자체 의 단순한 의 미 론적특성 으로 하여 Fortran 90과 HPF 는 리용에 서 편 리한것 으로 
된 다 . 

왜 실 용적 인 병 렬 프로그람작성 이 우위 를 차지하지 못하는가 ? 

왜 여 전히 사람들은 다른 수법 을 따르고 리용하겠는가 | : 

그 주되는 원인은 현재의 Fortran 90과 HPF 언어정의가 일반성과 효률성에서 여러가 
지 제한성을 가지기때문이다. 

Fortran 90과 HPF 는 조종병 렬성의 탐색 을 지 원하지 못한다. 

이 언어들은 비동기반복，작업대기， 관흐름 혹은 자료기지와 같은 알고리 듬적파라 
다임들, 자료기지와 갈은 응용프로그람들을 지원하는데 적합하지 못하다. 

실례 로 그것 은 7.2.1 절에서 고찰한 은행문제 라든가 12丄3절에서 배 운 목표탐색 과 같 
은 문제들을 위한 효과적인 자료병렬코드를 이상의 언어로 해결하기 어렵다. 

HPF 자료대 입명 령은 다만 정 규적 인 통신패 턴으로 배 렬을 지 원할수 밖에 없다. 이것 
聲 일 반자료구조나 비 정 규통신패런으로 병 렬알고리 듬작성 을 효과적 으로 지 원할수 있겠는 
지 명백하지 못하다는 생각을 가지게 한다. 또한 이 렇게 의심하는것 이 옳지 않다고 단 
정할수 없 다. 


실 례 14.8. GPF 에 서 목표탐색 

아래 에 HPF 목표탐색 코드의 기 본줄거 리 가 제 시 되 였 다 . 

complex A ( N ， M ) 

integer templ ( N , M ) temp 2( N ， M ) 

integer direction(Max Targets ), distance(Max Target ) 

integer I，j 

LI : FORALL ( I = l : N ， j = l : M ) templ ( I ， j )= IsTarget ( A ( I ， j )) 

L 2: temp 2= SUM _ PREFIX ( templ , MASK =( templ >0)) 

L 3: FORALL ( I = l : N ， j = l : M ; temps ( I ， j )>0 and temp 2( I , j )<= MaxTargets ) 
distance ( temp 2( I , j))=I 
direction ( temp 2( I , j))=j 
END FOR AT J . 

FORALL 명 령 문 LI 은 배 렬 A 의 매 요소들을 동시 에 평 가하며 A ( i ， j ) 가 목표이 면 
templ ( ij )= l 를 대 입한다. 4개 의 목표 A ( l ，)， A ( l ，4)， A (4,4) 가 있 다고 하자. 이 때 tempi 은 
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아래와 갈은 값을 가진다. 


tempi = 

0 0 11- 

10 0 0 

， temp 2 = sum _ prefixitempl ) = 

0 0 2 3" 

10 0 0 


0 0 0 1 


0 0 0 4 


L 2 은 tempi 의 모든 마디 의 요소들의 전 치합배 렬 temp 2 에 대 입한다. 다른 FORALL 
은 목표목록 (거리배렬과 방향배렬에 의하여 표시되는) 을 갱신한다. 

Tem P 2 의 모든 비령인 원소가 거리이므로 우에서 언급한 그런 규칙 (단일대입규칙이 
라 한다) 이 만족된다는것을 강조해 둔다. 

목표목록은 아래와 같이 정확히 계산된다. 


Distance ( 1 )= distance ( temp 2(2, 1 ))=2， direction ( 1 )= direction ( temp 2(2,1))=1 
Distance (2)= distance ( temp 2( 1,3))=1 > direction (2)= direction ( temp 2( 1,3))=3 
Distance (3)= distance ( temp 2( 1，4))=1， direction (3)= direction ( temp 2( 1，4))=4 
Distance (4)= distance ( temp 2(4,4))=4， direction (4)= direction ( temp 2(4,4))=4 

이것을 푸는데서 중요한 문제는 Is Target 함수가 목표의 분산이 어떻게 되였는가에 
무관계하게 N * M 번 평 가되 여 야 한다 . 

HPF 성능 

이 미 알고 있는 성능자료가 충분하지는 못하다 하더 라도 정적병 렬성 과 정규통신패 런 
용 계산프로그람과 같은 두가지 측면을 놓고 Fortran 90과 HPF 콤파일러의 성능을 몇가지 
증거에 기초하여 평가해 보자. 이와 갈은 의미에서 가장 일반적인것이라고는 볼수 없다. 

실례 로 표 14-3 에서 제시된 자료를 살펴 보자. 이 자료는 HPF 에 의한 쉴로우-워 터 
( shallow - water ) 의 수값계산프로그람을 여 러 형 태의 콤퓨터 에서 실행시켜 얻은 속도개선 
성능자료이다. 

MPP 들 (Intel paragon 과 IBM 의 SP 2) 과 SMP ( DEC 의 AlphaS 8400) 그리 고 DEC cluster 
에서 얻은 속도개선성능이 좋다는것을 알수 있었다. 

어떤 프로쎄스에 대하여 3차 Fortran 77프로그람과 HPF 프로그람의 대응하는 실행결과 
의 비로 HPF 의 속도개선정도를 평가하였다. 

추가적 인 최 량화와 고속완충효과를 가지 는것 으로 하여 HPF 를파일 러 에 의한 결 과가 
훨씬 개선된것이라고 결론지울수 있다. 

일부 응용에 서 자료병 렬성 수법 이 통보문넘 기 기수법 에 대 비할만한 성 능을 가진다고 
말할수 있다. 표 14-4 에 득같은 알고리 듬을 놓고 작성한 두가지 프로그람을 DEC 
Advantage Cluster 에 서 실현시 킨 성 능개 선결과를 제 시 하였 다. 이 두가지 프로그람가운데 
하나는 Fortran 77과 PVM 에 의 한것 이 며 다른 하나는 HPF 에 의 한것 이 다. 
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표 14-3 


HPF 3 드의 성능개선 


체계 

처리기 t 

1 

2 

4 

S 

Intel Paragon 

1.00 

1.95 

3.84 

7.38 

IBMSP2 

1.00 

1,97 

3.81 

7,50 

DEC AlphaServer 8400 

1.12 

1.97 

5.30 

10.6 

DEC Advantage Cluster 

1,00 

1.59 

3.13 

8.57 


더 우기 하나의 프로쎄 스에서 실행 되 는 3차 Fortran 77코드와 비 교되 도록 속도개 선값 
을 측정하였 다 . 

보는바와 같이 자료병 렬성코드는 모든 경 우에 분명 히 통보문넘 기 기코드를 훨씬 
초월 한다 . 

1 4. 4. 기타 자료병렬성수법 

Fortran 90 과 HPF 의 보편성과 효과성 

현재 부족점 들을 줄이 기 위한 일 련의 연구가 진행 되 고 있 다. 이 연구를 두가지 부 
류로 나누어 볼수 있는바 하나는 HPF 와 류사한것이며 다른 하나는 Fortran 이외의 언어에 
기 초한것 이 다. 

우리 는 자료병 렬 성 를 목표로 하는 접 속기 계수법 을 평 가하는 형 식 으로 이 수법 들을 
아래 에 서 소개한다 . 

14. 4. 1 . Fortran 95 와 Fortran 2001 

0 1 제 Fortran 95, Fortran 2001, Fortran D, Vienna Fortran^ ^ ■온 cfl 상에 cfl 

한 연구정형을 보자. 

여 기 서 첫 2개 는 Fortran 90을 확장한것 이 고 나머 지 2개 는 HPF 를 확장한것 이 다. 

이 책 을 내 놓을 때 까지 도 Fortran 90의 두가지 확장만이 국제 규격화기구와 국제전자 
기 술위 원회 ( IEC ) 와 갈은 국제 규격화단체 에 의하여 개 발되 고 있는 상태 였 다. 이 개 발대 
상이 바로 Fortran 95와 Fortran 20이로 알려 져 있다. 

1997년에 공개된 Fortran 95는 Fortran 90을 상대적 으로 약간 개선한것 이 다. Fortran 
95에서 새 로운 주요특성 은 FORALL 명 령 문과 FORALL 구성 자, PORE 와 ELEMENTAL 수 
속 및 구성 체 나 지 적 자，디 홀트초기 화이다. 

반면에 Fortran 20()1 은 20()1 년에 공개된것 들가운데 서 중요한 개 발언어 이 다. Fortran 
20()1 의 새로운 특성은 C 언어와의 호상조작성， 유도자료형의 확장， 고성능수값프로쎄 
스를 위한 추가적지원，비동기화된 FO 와 구동형 I / O 와 같은 새 로운 I / O 특성， 객체지향 
의 고려， 조작체 계 를 통한 일 련의 특징 들이다. 
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확장된 HPF 

Fortran D(Fortran 90 D 이 후)와 ViennaFortran 은 동적 및 비 정 규자료분포를 지 원 하는 보 
다 보편적인 자료넘기기기능들을 제공한다. 우리는 Fortran D 의 기본사항을 실례를 들어 
보기로 하자. 

실 례 14.9. HPF 코드로 푸는 N 개 체 문제 

N 개 의 개 체문제 에 서 N 개 의 개 체 X ( l ), X (2), …， X ( n ) 체 계 의 동작은 아래 와 같은 
시간구간렬로 표현된다. 매 구간마다 매 개체 X ( i ) 에 부과되는 force ( i ) 는 다음과 같이 
계 산된 다. 


forceij ) = Yj /(*•，■/) (14.5) 

^(7) is a neighbor of x(i) 

( x ( j ) is a neighbor of x ( i ): •<：(/’) 는 ; c (0 의 이 웃) 

여 기서 개 체 xif ) 는 개 체 x (0 와 그 사이 거 리 가 어 떤 턱값보다 작으면 서 로 이 웃이라 
고 말한다. 다음으로 매 개체의 위 치와 속도는 새로 계산되는 force ( i ) 에 의하여 갱신된다. 
실 례 로 6개 체 문제 를 그림 14-6 에 제 시 하였 다. 

그림 에 서 매 vertex 는 개 체 를 표현한것 이 다. 

물체의 쌍사이는 그것 이 서 로 이웃일 때 그어 진다. 턱값외 에도 모두 6 x 5=30 쌍으로 간 
주하여 야 한다. 그림 14-6 에 서 우리 는 우의 코드로 표현되 는 7개 쌍을 고려하여 야 한다. 

조 A =(/ l , 1, 2, 2, 3, 4, 3, •••句과 조 B =(/2, 5, 5, 3, 4, 6, 6, "가의 경계 I 의 2개의 수 
직선은 조 A ( i ), 조 B ( i ) 로 표시된다. 례컨대 경계 4의 2개 사선은 조 A (4)=2 및 조 
B (4)=3 이다. 



T) 정규불로크분배 니 비정규볼로크분배 

그림 14-6. 6개 본체 문제 에 대 한 자료분포 


X (2) 에 작용하는 힘은 그 세개 이웃 X ( l ), X (3), X (5) 로부터 받는다. 

그러 나 force (2)= f (2, l )+ f (2, 3)+ f (2, 5) 이 다. 

이것은 모든 이웃들로부터 유도된 합이다. 

이 기 능은 Fortran D 의 FORALL 에 서 사용할수 있 는 새 로운 REDUCE interisic 에 의 하 
여 실현된 다. 두개 마디 에 대 한 상세한 자료는 다음과 같이 서 술된 다. 
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! HPF $ PROCESSOR Nodes (2) 

! HPF $ DISTRIBUTE x ( BLOCK ) ONTO Nodes 

B=(/l ， 1 ， 2, 2, 1 ， 2f) 

! HPF $ REDISTRIBUTE x ( INDIRECT ( B )) 


이 블로크분포는 그림 14-6 자)에 제시되였다. 

점선구획안에 있는 세개의 개체는 마디 1에 배당되고 나머지 세개의 개체는 마디 2 
에 배 당된 다. 이 분포는 소유자계 산규칙 과 함께 통신되 여 야 할 6개 의 부분을 산생 시킨다. 

하나는 간접 적 인 배 렬 B 를 통한 비 정 규분포에 의한 국부성 을 개 선할수 있 다. 프로그람 
작성 자는 처음에 간접배렬만을 지원한다. 다음에 동적 REDISTRIBUT 명 령문이 그림 14_6 니 
에 제시된 형식으로 배렬 표의 가지들을 재배치한다. 

정규분포에서 Block 와 CYCLIC 와는 달리 X ( INDIRECTCB ) 는 X ( i ) 가 Nodes ( B ( i )) 에 배 
치될것으로 본다. 그렇지만 X ( s ) 는 Nodes ( B (5)) 즉 Nodes ( l ) 에 넘겨 져야 한다. 이 비정규 
분포는 통신되여야 할 두개의 가지만 요구한다. 

HPF 의 기본골격으로 서술한 이상의 모의를 요약하면 다음과 같다. 

do time _ step = 1 , number _ of _ time_steps 
! compute the set of pairs 


! compute the force on each particle 
FORALL ( I = 1 : Number _ of _ Pairs ) 

REDUCE ( SUM , force ( PairA ( i )), f ( PairA ( i ), PairB ( i ))) 

REDUCE ( SUM , force ( PairB ( i )), f ( PairA ( i ), PairB ( i ))) 

END FORALL 

FORALL ( I = 1 : N ) update _ position _ and _ velocity ( i ) 
end do ! 시 간단계되풀이의 끝 

HPF 를 완성하기 위한 개념들에 대한 연구를 HPF -2 라고 한다. 

HPF -2 의 좋은 특성은 개성적인 응용프로그람들과 함께 문서화된 새 특성을 위한 합 
리 성 과 정 당성 이다. 그것 들은 HPF 에 어 떤 확장된 능력 이 추가되 는가를 구체 적 으로 연시 
해 주는 실제적 인 응용프로그람들이다. 우에서 론한 배 렬의 비정규적넘기기 HPF -2 연구 
에서 하나의 론점이 주소화되여 있다. 

HPF -2 를 위한 HPF 연산에 의하여 고려 되 는 새 로운 능력 은 다음과 같다. 

• 배렬만이 아닌 보다 보편적인 자료구조의 넘기기 그것은 련결목록이나 도출되는 
자료형과 같은 지적 자기초의 자료구조를 포함한다. 

• 가상마디의 내부격자만이 아닌 처리기부분모임에로의 분포 
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• 소유자계산시간이 아닌 보다 유연한 작업부하배치도식 

• 다중과제의(단일 스레드 만이 아닌) 동적생성과 완료들 

• 원자적조작의 지원 

• 병 렬 I/O 와 검사법 

• 콤퓨터의 광대역스펙트르를 고성능실현을 위하여 설계된 HPF 의 고전적부분모임 
으로서의 HPF 핵심부 

14. 4. 2. pC +十와 Nesl 방법 

Fortran 이 아닌 여 러 가지 언어 를 쓰는 자료병 렬성 수법 에 는 여 러 가지 가 있 다. 실례 로 
인 디 아대 학에 서 개 발한 pC ++ 계 획 은 [98] 객 체 지 향수법 을 적 용하고 있 다. 

자료령역은 배 렬만이 아닌 보다 유연한 대 상에 의하여 정의된다. 그리 고 불규칙자료 
병렬프로쎄스가 지원된다. 

아래 에 서 CMU 의 Blell 00 h 2 에 의 해 개 발된 nesl 언 어 의 일 부를 상세 히 론한다. pC ++ 
와 Nesl 은 둘다 공통령 역 에서 실현된다. Nesl 언어 는 단순한 기 초를 가진 자료병 렬성 언어 에 
서 병 렬 알고리 듬을 배 우거 나 정 의 하기 위 한것 이 다. Nesl 은 2가지 중요한 특성 을 가진 다. 그 
하나는 자료요소의 순서모임 을 지정하는 순서렬이 다. 매 요소는 그 자체 가 순서렬일수 있 
다. 정 규자료구조로서의 배 렬과는 달리 순서렬은 재귀 를 포함한 규칙 적 및 불규칙적자료구 
조를 다 표현할수 있다. 

다른 하나는 그 자체 가 순서렬일수 있는 모든 요소에 동시 에 적 용할수 있는 병 렬 함 
수를 가짐으로써 병렬성을 지원하는것이다. 

이 것 은 평 탄한 ( 고르로운 ) 자료병 렬 성 만을 지 원 하던 Fortran 90 또는 HPF 와 비 교된 다. 

Nesl 의 주요병 렬 성 구성 체 는 apply-t (广 each 이 다. 이 구성 체 는 식 { a * a:a in [ l , 2, 3, 4] | 
a >2} 에 의하여 직관적으로 설명할수 있다. 이 식은 “병렬로 순서렬 {1, 2, 3, 4} 에서 
a >2 인 매 요소 a 에 두제 곱연산을 적 용한다” 를 의 미한다. 

이 것은 순서렬 [9,16] 을 생성한다. 려 파조인 a >2 는 선택적 이다. 

Apply - to-each 구성체 에서 연산자는 연산자나 사용자정의 함수가 될수 있다. 실례 로 다 
음의 정의 


Funcion faciorial ( n )= if ( n == l ) then 1 else n * factorial ( n - l ); 


에 서 식 { factorial ( b ): bint 3, 2, 1]} 은 순서 렬 [6, 2, 1] 을 생 성 한다. 

Nesl 은 elementwise 와 관계 되 는 모든 순서렬 에 조작함수를 제 공한다. 

이 와 갈은 류의함수들을 표 14-4 에 제 시하였 다. 

보충적 으로 write ( s ， p ) 함수는 2개 의 변수를 가지 는바 첫 번째 것 은 순서 렬 S 이 며 두번째 
것 은 옹근수값조의 순서렬 P 이 다. 매 조 ( i , v ) 는 S 의 I 째 요소를 지 정하며 v 가 대 입된다. 
그러 나 실 행후에 
Re S ult = write ([ l ，3,5, 刀，[(0,2)，(3,3)]) 
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이 된다. 

우리 는 Result =[2,3,5,3] 을 엄 는다. 순서렬 첨수가 0에 서 시 작된 다는것 을 강조해 둔다. 
첨 수를 P 로 반복할수 있다. 이 때 값들중 하나는 비 결정 론적방법 으로 서 술된다. 

그러나 

write ([ l ，3,5, 刀，[(0,2)，(0,4)，(3,3)]) 

은 [2, 3, 5, 3] 이나 [4, 3, 5, 3] 을 귀환한다. 

Nesl 은 같은 병 렬 쓰기 를 허 용하지 않는 한쪽 배 렬 쓰기함수 e _ wirte ( S ， P ) 를 제 공한다. 


표 14-4 여러가지 Nesl 순서렬함수 


함 수 

의 미 

실 례 

dist(a ， n) 

a 의 n 개복사렬 복귀 

dist(t ， 3) returns [t ， t ， t] 

#s 

렬 s 의 복 쉬 

#[t,t ， t] returns 3 

[s:e:n] 

« 에 의한 표로부터 e 까지 
옹근 수렬복귀 

[2:9:3] returns [2, 5, 8] 

drop 分， n) 

렬 고의 첫번째 « 개원소 떨극 

drop([l ， 2, 3,4], 2) 
returns [3,4] 

sum ⑴ 

렬 포의 ^ 소 

sum([l ， 2,3]) returns 6 

flatten^) 

축소렬 j 를 안정 

flatten([[l,2],[[3],[4]]]) 
returns [1 ， 2,3,4] 


실 례 14.10. 성 긴 행 렬 의 동시합 

우리 는 성 긴행 렬의 매 행 의 동시합을 얻 으러 한다고 하자. 



"1.0 

0 

0 

2.0 

0" 


"3.0 " 

rowsum ( A ) = rowsum 

0 

3.0 

0 

0 

0 

= 

3.0 

5.0 

0 

0 

0 

0 


5.0 


6.0 

0 

0 

7.0 

0 _ 


13.0 


대부분의 요소가 0이므로 이 행렬을 일부 특수한 형태로 기억기에 보존되도록 재표 
현 할수 있 다. 그 다음 병 렬 조작을 Fortran 90이 나 HPF 로 실 현 하는것 은 어 렵 다. Nesl 에 서 
성긴 행렬 A 는 매개가 (렬，값) 쌍으로 된 순서렬인 4개의 행의 순서렬로 표현할수 있다. 

A =[[(0， l ，0)，( l ，2,0)]，[( l ，3,0)]，[(0,5,0)]，[(0,6,0)，(3,7,0)]] 

이제 행의 합연산은 Nesl 에서 간결하게 다음과 같이 지정될수 있다. 


S ={ sum ({ v :( i , v)in row}):row in A } 
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이 실례는 수렬병렬성의 두 형태를 보여 주는바 자료순서렬 A 는 축소화되여 있고 4 
개의 합계산은 병렬로 실행된다. 

실 례 14.11. 자료병 렬 성 코드로 된 Evatosthenes 방법 

N 보다 작거 나 같은 prim 모두의 모임 은 아래 와 같은 Nesl 수속을 리용하여 Eratosthenes 
방법 의 sieue 에 의하여 찾을수 있 다. 

function primes ( N ) 
if(N==2) then ([]int) 
else 

let sqr _ primes = primes ( isqrt ( N )); 

composites ^ {[2* p : N : p] : p in srq _ primes }; 
flat _ comps = flatten ( composites ); 
flags = write ( dist ( t ， N )，{( i ， f):i in flat _ comps }); 
indices={i in [0: N];fl in flags | fl } 
in drop ( indices ，2); 

식 [] 此는 N =2 일 때 결과로 되 는 빈순서렬 을 표시한다. 함수 isqrt ( N ) 는 자의 2차뿌 
리 의 옹근수값을 귀 환한다. 2개 의 상수 호와 f 는 론리 값 true 혹은 false 중 하나를 가리 킨다. 

N =20 이 라고 가정 하자. primes ( isqrt (20))= primes (4) 를 찾을 때 까지 재귀 적 으로 자기 자 
체로 접근하여 [2,3]을 귀환한다. 다른 변수들은 다음과 같은 값을 가진다. 

Sqr _ primes =[2,3] 

Composites =[[4,6,8，10，12，14,16，18]，[6,9，12，15，18]] 

Flat _ comps =[4,6,8，10, 12,14,16,18,6,9,12,15,1 幻 
Flags =[ t ， t ， t ， t ， f ， t ， f ， t ， f ， f ， f ， t ， f ， t ， f ， f ， f ， t ， f ， t ] 
lndices =[0, 1，2,3,5,7, 11,13,17,19] 

그리 하여 최 종결 과는 primes [20 ]i 의 하여 귀 환되 는 [2, 3, 5, 7，11, 17, 19] 이 다. 

Blelloch 는 두개의 측정량 즉 작업량과 깊이를 리용하여 병렬알고리듬의 성능을 평가 
할것을 주장하였다 [87]. 

작업 에 효과적 인 병 렬알고리 듬(즉 여 기서 병 렬알고리 듬은 가장 좋은 순차적알고리 듬 
과 갈은 량의 작업 과 근사하게 수행한다.)에 대 하여 작업 량은 3장에 서 의 순차적 인 작업 
부하 과 상사적이며 깊이는 림계경로 Too 와 류사하다. 

그밖에 그 성 능측정량들이 기 계모형 이거 나 병 렬프로그람선언에 기 초하여 야 한다고 
제 기 하였 다. 

Nesl 프로그람이 작업량과 깊이는 아래에 언급한바와 같이 견본연산(표 14-4 에 제 
시되 였다.)들과 측정량들을 표현식으로 결합하는 극치로부터 엄어 진다. 
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표 14-5 Nesl 견본합수들의 작업량과 깊이 


연확 

작업 

깊이 

해 석 

dist^) 

1 

1 


#s 

1 

1 



(e-s)/n 

1 


sum(s) 

L(s) 

log(L (功 

L(s) 는 렬의 길이이다 

drop(s,n) 

L(result) 

1 

Result 는 결 과렬 이 다 

flatten(s) 

L(result) 

1 


writc($,p) 

L(result) 

1 



표현식 e 의 작업 량과 깊이를 각각 W(e), D ( e ) 로 표시 하자. 그러 면 합성 표현식의 두 
측정 렬들을 다음과 갈은 부분표현식들로부터 계산할수 있다. 


(1) 대다수 경우에 표현식의 작업량과 깊이를 그 부분표현식들의 작업량과 깊이값 
이다. 

(2) 매개에 대하여 다음식을 적용한다. 

W({e 1 (a):aine 2 }) = l+W(e 2 ) + Y, w( ^ e i ⑷) 

" m£2 (14.7) 

D({e 1 (a)： a ine 2 })l + D(e 2 ) + Y, D ( e i ⑷) 

(3) “ if 의 then e 2 else e 3 n 인 조건 세 대 하여 다음의 식 을 리 용한다. 


nw{e) = \ + W{e l ) + 


\W(e 2 ) 

[W ( 어 ) 


e 1 =true 
ei = false 


D{e) = \ + D{e x ) + 


r D{e 2 ) 

D(e 3 ) 


e j = true 
e i = false 


(14.8) 


실 례 14.12. 병 렬알고리 듬 primes(N) 

실 례 14.11 에 서 병 렬 알고리 듬 primes ( N ) 의 작업 량과 길 이 는 무엇 인가 ? 평 균병 렬 상은 
얼마인가? 

풀이 

primes ( N ) 이 f ( N ) 의 작업 량을 가진다고 하자. 
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Sqr _ primes = primes ( isqrt ( N )) 에서 첫 재귀 접 근은 /( ■/方") 의 작업 량을 가진다. 

둘째 재귀접 근은 /(#) 의 작업 량을 가진다. 즉 문제 의 크기는 문제 의 크기 가 2로 
되는 마지막재귀 준위 에 도달될 때까지 N 으로부터 ， f 교， 상元■ 으로 감소한다. 

이 준위에서 총체적인 작업량은 CKAHoglogAO 이며 임의의 재귀 준위에서 의 길이는 
상수 이다(문제 14.6 볼것 ). 

우리 는 재 귀 준위 를 가진 다. 

총 작업 량은 O ( A ^ loglogA ^) 이 며 총 깊 이 는 O ( loglogA ^) 이 며 평 균병 렬 성 은 
O ( iVl 0 gl 0 g AT)/OOoglog N ) = O ( N ) 이 다. 

Nesl 은 간단하고 잘 째여 져 있는 언어이다. 그것은 자료병렬，함수의 형식，잘 설 
계 된 구성 체 들의 작은 모임 을 리 용하여 병 렬 계 산알고리 듬들을 간결 하고 명 확하게 규정할 
수 있다는것을 론증한다. 이 런 알고리듬들에서는 Nesl 프로그람이 주류를 이루는 언어(병 
렬확정성을 가진 C 언어와 Fortran ) 들로 규정된 대응하는 프로그람들보다 훨씬 더 간단하 
다. Nesl 프로그람들은 형식 에 의거하지 않는(혹은 간략적 인) 알고리듬들에서 매우 가깝다. 

이 모든 속성 과 일 반성 은 Nesl 이 자료병 렬알고리 듬을 교육하는 리상적 인 언어 로 되 
도록 한다. Nesl 의 결합은 자료병 렬과 함수형 언어 에서 와 같다.그것은 MIND 계산을 규정 할 
만큼 주류를 이 루지 못하며 유연하지 못한것 이 다. 실례 로 은행 경 영 문제 와 목표람색 문제 들 
을 푸는데 서 Nes / 로 병 렬알고리 듬을 서 술하기 어 렵 다 (12.13 절 을 볼것 ). 

Nes 에 서 의 또 다른 문제 점 은 무효시 간을 줄이 기 위한 자료위 치항목과 병 렬 성통신을 
충분히 고려하지 못한것 이 다. [89] 는 DECstation 5000， CM _2, CM _5, Cray (90) 응용프로그 
람을 가지 고 Nesl 성 능실 험 을 진행하였 다. Nesl 프로그람의 성 능은 정 밀 도자료에 대 하여 서 
는 기 계전용인 Fortran 또는 C 코드와 견줄만 하다는것 을 보여 준다. 흔히 비 정 규자료에 
대 하여서도 우월하다. 


14.5. 참고문헌주해와 련습문제 

자료병 렬수법 은 [310], [20], [89], [142] 들에 서 론의 했다. [142] 는 자료병 렬분야에 
대 하여 총괄적 으로 론의 하였 다. Fortran 90은 [4] 에 서 ， Fortran 95는 [5] 에 서 론의 되 였 
다. 고성 능 Fortran 은 [37이과 [419] 에 서 론의 되 였 다. HPF 의 확장과 그의 특성 은 [149] 와 
[506, 50刀 에 서 론의하였 다. 

실례 14.9 는 [50 刀에 따른것이다. 

자료병 렬 성 과 Nesl 언 어 는 [87, 89] 에 서 론의 되 였 다. 

이 장에서 Nesl 에 대한 론의들은 우의 두 론문에서 최대로 취한자료에 기초한것이다. 
사유하는 기 계 연구집 단은 C *, Fortran , CMFortran , lisp 와 같은 여 러 가지 유력 한 자료 
병 렬언어 들을 개 발하였 다. 
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문 제 


문제 14.1. 그림 14-1 에 서 야꼬비완화코드를 리용하여 다음의 자료병 렬 프로그람의 특 
징들을 설명하시오. 

(1) 조종단일스레드 

(2) 전역적이 름붙이 기공간 

(3) 집 합적자료구조우에 서 의 병 렬 연산 

(4) 약한 동기화 

(5) 암시 적호상작용 

(6) 암시 적자료배 정 

문제 14.2. 대각선화단계에서의 작업량이 그림 14-5 보다 더 균형화되는 HPM 에서 가 
우스소거프로그람을 작성 하시 오. 

(1) 렬 크기 N 과 기 계크기 «에 대 한 프로그람을 작성 하시 오. 

(2) 자이 n 보다 훨씬 더 크며 N 이 건으로 고르롭게 나누어 진다는것들의 가정을 
간단히 할수 있다. 

(3) 두 마디체계를 가정하자. (1) 의 프로그람에 대하여 두 마디중 매 마디에 대한 
flop 작업량이 얼마인가? 

(4) 두 마디체 계를 가정 하자.그림 14-5 의 프로그람인 경 우에 두마디중 매 마디 에 
대한 flop 작업 량은 얼마인가， 

문제 14.3. 야꼬비완화를 위한 HPF 프로그람을 작성 하시 오(실례 12.4 와 그림 14-18 을 
보시 오). 

HPF 코드가 그림 14-1 보다 얼마나 더 단순해지며 고속화되는가를 설명 하시오. 

주의 : HDF 코드는 배 렬 Diag A 를 계산하는데 순차적 인 do 순환고리 를 요구하지 않는다. 

문제 14.4. 자료병 렬성 에 대 한 Fortran 90과 HPF 방법 을 비 교하고 다음 문제 에 대 답하 
시오. 

(1) Fortran 90과 HPF 방법에서 intrinsic 함수에서의 류사성과 차이점은 무엇인가? 

(2) 병 렬배 렬연산에 대 하여 (1) 부분과 갈은 문제를 반복하시오. 

(3) 100 p-Carried 를 조종하는데서 그것 이 HDF 에서는 어떻게 지원되는가를 설명 하 
시오. 

(4) Fortran 90과 HDF 에 서 자료병 렬 성 에 대 한 를파일 러 지 원의 우결 함을 비 교 
하시 오. 

오늘의 Fortran 90과 HDF 를파일 러들의 한계 는 무엇 인가， 

문제 14.5. Eratostenes 방법 의 선별 에 의 하여 자과 같거 나 더 작은 모든 primes 들의 모 
임을 찾는 프로그람을 작성하시오(실례 14.11). 
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Fortran 90 으로 
HPF 로 

실례 14.12 를 가지고 이 프로그람을 비 교하여 Fortran 90, HPF Nesl 의 우결함 
을 분석하시 오. 


문제 14.6. 실 례 14.11 에 서 prime 알고리 듬이 재 기 준위 0에 서 O ( NloglogN ) 만한 작업 량 
과 0(1) 만한 깊이를 가지는가를 확인하시오. 

문제 14.7. Fortran 90과 HPF 개 선을 위 한 연구결 과들을 고려 하여 이 장에 서 배 운것 외 
의 가능 및 특징확장에 대 한 최 신개 발을 더 깊 이 고찰하여 다음 질 문에 대 답하시 오. 

(1) 오늘의 Fortran 90으로부터 그 특성상 Fortran 95보다 개선된것이 무엇인가? 

(2) 포트란 20()1 에 대하여 부분 (1) 을 반복하시오. 

문제 14.8. 자료병렬성을 리용하는 이 Fortran 수법들을 고려해서 다음 질문에 대 답하시오. 

(1) Indiana 종합대 학의 PC ++ 과제 를 연구하여 자료병 렬성 에 대 한 객체지 향적 방법 
에 주해를 불이시오. 

(2) Neal 언 어 로 개 발된 순서 렬 의 새 로운 착상을 론하시 오. 

(3) 응용프로그람들에서 자료병 렬성을 조종하는 객체지 향적 이며 함수적인 방법들 
을 리용하는데 서 의 약점 을 밝히 시 오. 

문제 14.9. 명시적병렬성에 대한 세가지 병렬프로그람작성모형을 모두 배웠다. 표 
12.3 을 다시 보고 다음의것 에 대 한 완전 한 주장을 가지 고 대 답하시 오. 

(1) 병 렬 성 조종，통신，동기 화，유한성，확정성，수정 성，복잡성，이 식 성 과 같은 자 
료병 렬방법 이 가장 리득을 보는 항목들에 관하여 세 가지 모형 들의 상대 적순 
위를 비교판단하시오. 

(2) 비 정극성조종，응용프로그람의 일 반성，효과성 과 같이 자료방법 모형 의 순위 
를 정 하는데서 가장 기 약하다고 보는 내용에 관하여 부문(1， 2) 를 반복하시오. 

(3) 집합성과 일반성，효과성에 관하여 통보문넘기기모형에 대하여 (1) 를 반복하시오. 

(4) 병 렬성，배 치，통신，구성체 계 에 관하여 통보문넘기 기모형 을 놓고 (2) 를 반복 
하시 오. 

(5) 배 치，통신，비정 규성，일 반성 에 관하여 공유기억모형 을 놓고 (1) 를 반복하 
시오. 

(6) 동기 화，집 합성，4가지 의 미 론적 문제 점 들，프로그람이 식 성 에 관하여 공유기 억 
모형을 놓고 (2) 를 반복하시오. 

문제 14.10. 표 12.3 의 자료들은 프로그람작성능력에 관하여 일반성을 제외한 모든 
문제 들에서 가장 좋은 비률이라는것 을 보여 준다. 여 기서 독자의 주장이 문제 12.2 에서 
주어 진것 보다 더 심 오하여 야 한다. 이 요구를 례 증하기 위하여 가동환경 의존실 례 를 리 
용하면 서 성 능평 가실 험 결 과를 인 용하시 오. 
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